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Introducción 


El propósito de este libro de la serie Cuadernos Metodológicos quedará cum¬ 
plido si el lector se forma una idea general sobre los instrumentos que la 
teoría de juegos ofrece para analizar situaciones estratégicas y aprende a dar 
los primeros pasos en la elaboración y solución de modelos formales. Por 
tanto, el objetivo es doble: que el lector consiga entender la parte técnica de 
la teoría de juegos, y de este modo pueda discutir críticamente y con funda¬ 
mento sus ventajas y limitaciones; y, además, que sepa comenzar a aplicarla 
para dar respuesta a sus preguntas de investigación. Al dar importancia so¬ 
bre todo al aspecto práctico de la teoría de juegos, ha sido necesario dejar 
fuera algunas cuestiones, como la revisión de sus aplicaciones en las ciencias 
sociales, o la exposición de los debates sobre las bases conceptuales de la 
teoría. 

Aunque libros sobre teoría de juegos hay muchos, la mayoría se orienta 
hacia los economistas. Esto suele traducirse en un nivel elevado de formali- 
zación matemática y en ejemplos que casi siempre tienen que ver con el 
comportamiento de las empresas. En lengua inglesa, pero no en española, 
hay introducciones a la teoría de juegos más específicas, como la de Morrow 
(1994) para ciencia política, la de Baird, Gertner y Picker (1994) para el de¬ 
recho, o incluso introducciones escritas a la vez para economistas y politólo- 
gos (Dutta 1999). Mención aparte merece el reciente libro de McCarty y Mei- 
rowitz (2007), un manual extremadamente riguroso (y más avanzado que el 
presente) escrito expresamente desde la ciencia política con multitud de 
ejemplos y aplicaciones propios de esa disciplina. En español no hay una 
presentación de la teoría de juegos para científicos sociales. A pesar de que 
este libro no aspira a cubrir todo el terreno, sí puede servir como primera 
toma de contacto. Se ha procurado reducir la parte matemática a su mínima 
expresión y apenas se da algo por sabido. Los ejemplos e ilustraciones que 
aparecen pertenecen al ámbito de la ciencia política o la sociología. 

La teoría de juegos constituye el material analítico más importante que 
se emplea en la teoría de la elección racional. La teoría de la elección ra¬ 
cional, a pesar de su nombre, no es en realidad una “teoría”: de hecho, no 
contiene hipótesis que sean directamente verificables. Se trata más bien de 
un enfoque o de una aproximación a la realidad social. En su seno tienen 
lugar múltiples desarrollos, como la teoría de la acción colectiva, los modelos 
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espaciales de competición política, la teoría de la elección social o los mo¬ 
delos de economía política, todos ellos inspirados en el principio de que el 
factor más importante en la explicación de la acción humana es la persecu¬ 
ción racional del auto-interés. Casi todos estos desarrollos recurren, en 
mayor o menor medida, a los instrumentos de análisis que propone la teo¬ 
ría de juegos. 

Para precisar cuál es el ámbito de aplicación de la teoría de juegos, con¬ 
viene realizar algunas distinciones. Desde el punto de vista más general, 
cabe identificar dos grandes tipos de acción: la acción que se produce en 
contextos paramétricos y la que se produce en contextos estratégicos. En con¬ 
textos paramétricos, el agente conoce todos los parámetros que afectan a su 
decisión. Por ejemplo, cuando un consumidor acude al mercado a comprar 
algún bien, los parámetros relevantes son los precios de los bienes y la res¬ 
tricción presupuestaria del consumidor. En este caso, la decisión, además de 
ser paramétrica, se lleva a cabo con certidumbre : el agente conoce los valores 
de todos los parámetros (sabe cuánto cuestan los bienes y de cuánto dinero 
dispone para gastarse en esos bienes). En cambio, si un agente decide com¬ 
prar un billete de lotería, su decisión, aun siendo paramétrica, es una deci¬ 
sión que se toma bajo riesgo , pues el agente no puede saber de antemano si 
el billete adquirido va a resultar premiado o no, aunque puede saber la pro¬ 
babilidad de recibir el premio (si se sortean 100.000 números, la probabili¬ 
dad de ganar es 1/100.000). Si el agente ni siquiera conoce esa probabilidad, 
decimos entonces que su decisión se lleva a cabo bajo incertidumbre . Por 
ejemplo, si el agente invierte en bolsa, no sabe de antemano qué probabili¬ 
dad tiene de ganar o perder. Puede tener estimaciones personales o subjeti¬ 
vas de cómo va a evolucionar la bolsa, pero no se trata de una probabilidad 
objetiva como la del caso de la lotería. 

En las situaciones estratégicas, los resultados de la acción o elección 
del agente no dependen sólo de parámetros. Además de los parámetros, el 
resultado de la acción depende de lo que otras personas hagan. Decimos 
que hay interacción estratégica entre varios agentes cuando la acción de 
cada uno depende de las expectativas que cada uno tenga sobre lo que va¬ 
yan a hacer los demás. Supongamos una situación estratégica entre dos 
agentes, A y B. Lo que haga A depende de lo que crea que B vaya a hacer, 
pero a su vez lo que B haga depende de lo que B crea que A vaya a hacer. Pen¬ 
semos en el juego de “piedra, papel o tijeras". A sacará tijeras si piensa que 
B que va a sacar papel,, pero B sacará piedra si piensa que A va a sacar tije¬ 
ras; ahora bien, si A sabe que eso es lo que B piensa, debería sacar en reali¬ 
dad papel, en cuyo caso B debería sacar tijeras, y así sucesivamente. En 
este ejemplo, podría parecer que el encadenamiento de las expectativas ori¬ 
gina una especie de círculo vicioso o un regreso al infinito que impide al 
agente tomar una decisión. Por fortuna, la teoría de juegos demuestra que 
esto no es así, y que las situaciones estratégicas tienen soluciones raciona¬ 
les. En el caso del juego “piedra, papel o tijeras", la teoría recomendaría a 
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cada jugador, por razones que se exponen en el capítulo 2, que tomara su 
decisión al azar, eligiendo con igual probabilidad cada una de las opciones 
posibles. 

Mientras que la teoría de juegos se ocupa de las situaciones estratégi¬ 
cas, la teoría de la decisión (o teoría de la utilidad) estudia las situaciones 
paramétricas. Este reparto del trabajo no implica sin embargo que se trate 
de teorías independientes. Como se expone en el capítulo 1, la teoría de 
juegos se construye sobre los fundamentos que proporciona la teoría de la 
decisión. 

Las situaciones estratégicas se dan en multitud de ámbitos. Hay depen¬ 
dencia estratégica cuando dos empresas en un duopolio tienen que fijar su 
nivel de producción, cuando dos jugadores de ajedrez se enfrentan en una 
partida, cuando un sindicato negocia con una empresa, cuando los partidos 
políticos compiten en unas elecciones, cuando los ejércitos luchan en una 
batalla, cuando diversos grupos étnicos tienen que organizar la convivencia 
en un mismo territorio, cuando en un Parlamento los representantes estable¬ 
cen coaliciones para formar un Gobierno, cuando una organización terroris¬ 
ta presiona a un Estado, cuando se celebra una subasta, etcétera. 

La teoría de juegos comenzó analizando juegos de cartas como el poker. 
El término "juego" se conservó incluso después de que la teoría abandonara 
el estudio de los auténticos juegos y pasase a considerar situaciones estraté¬ 
gicas en general. Un juego, en este sentido, es cualquier situación estratégi¬ 
ca. El primer trabajo importante en este campo fue Theory of Gantes and 
Economic Behavior , publicado en 1944. Los autores, John von Neumann, un 
físico y matemático, y Oskar Morgenstem, un economista, proponían, entre 
otras cosas, una nueva teoría de la utilidad (cuyas líneas generales se expo¬ 
nen en el capítulo 1) y una solución algorítmica para los juegos de suma 
cero, juegos en que uno gana lo que el otro pierde. Demostraron que estos 
juegos, aunque poco frecuentes en la realidad, tienen una solución sencilla y 
elegante desde el punto de vista matemático. 

Las aportaciones principales se producen con la publicación de varios 
trabajos sobre teoría de juegos a cargo del matemático John Nash (1996) en 
los años 1950-1953. Nash propuso una noción general y simple de equilibrio 
(el llamado equilibrio de Nash, que se estudia en el capítulo 2), entendiendo 
por equilibrio una situación en la que ninguno de los jugadores tiene incenti¬ 
vos para cambiar su elección. Esta noción se aplica por igual a juegos de 
suma cero, en los que la divergencia de intereses es total, y a los juegos de suma 
distinta de cero, en los que tal divergencia es parcial. En un equilibrio de 
Nash, los jugadores actúan racionalmente (intentan maximizar su utilidad), 
y no pueden llegar a acuerdos entre sí que no se sostengan sobre los propios 
intereses de los jugadores. Cuando sucede que no hay posibilidad de estable¬ 
cer acuerdos cuyo cumplimiento sea garantizado por una tercera parte, se 
habla de juegos no cooperativos. En este libro se examinan los juegos no 
cooperativos, dejando fuera los juegos cooperativos. 
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Las aplicaciones y desarrollos de la teoría de juegos tardaron tiempo en 
hacerse notar 1 . Hasta bien entrados los años sesenta del pasado siglo no se 
realizaron avances teóricos de importancia. John Harsanyi propuso entonces 
su teoría de los juegos de información incompleta (véase el capítulo 5) y Ri¬ 
chard Selten, en los setenta, ofreció nuevas nociones más refinadas de equili¬ 
brio, teniendo en cuenta los problemas de credibilidad de las promesas y 
amenazas que pueden intervenir en los juegos (véase el capítulo 3). Harsanyi 
y Selten colaboraron además en un ambicioso proyecto destinado a propo¬ 
ner una teoría del equilibrio válido para cualquier tipo de juego que culminó 
con la publicación del libro A General Theory of Equilibrium Selection in Ga¬ 
ntes en 1988. Estos tres autores, Nash, Harsanyi y Selten, recibieron el pre¬ 
mio Nobel de Economía en 1994 por sus contribuciones decisivas a la teoría 
de juegos. Durante los años ochenta se avanzó en lo que se conoce como re¬ 
finamientos del equilibrio de Nash, estableciendo por ejemplo los primeros 
modelos de negociación basados en teoría de juegos no cooperativos (véanse 
los capítulos 4 y 5). En los últimos veinte años, los avances más relevantes 
desde el punto de vista teórico han sido dos. Por un lado, el desarrollo de los 
modelos evolutivos, inspirados en el trabajo pionero de John Maynard Smith 
(1982), en los que no se supone racionalidad a los agentes 2 . El mecanismo 
de la selección natural, sin embargo, produce resultados equivalentes. Sus 
aplicaciones no se limitan sólo a la biología: pueden encontrarse también en 
economía, psicología, e incluso filosofía moral. Tienen la ventaja de que pue¬ 
den explicar fenómenos muy generales, desde una perspectiva macro, sin ne¬ 
cesidad de realizar supuestos exigentes sobre la racionalidad de los agentes. 
Por otro lado, ha sido fundamental también la aparición de lo que suele lla¬ 
marse economía del comportamiento (behavioral economics) 3 . Esta teoría, 
motivada sobre todo por los resultados de múltiples experimentos de labora¬ 
torio, intenta adaptar el instrumental de la teoría de juegos a la clase de 
comportamientos que los seres humanos llevan a cabo en la realidad y que 
se desvía, en ocasiones de forma muy pronunciada, de lo que postulan los 
modelos más abstractos de teorías de juegos. 

La teoría de juegos fue penetrando lentamente en la teoría económica, 
hasta el punto de que hoy muchos manuales de microeconomía se exponen 
en términos de esta teoría. La teoría de juegos, por ejemplo, ha resultado ex¬ 
tremadamente útil en economía para entender todos aquellos intercambios 
entre agentes en los que hay información asimétrica: una de las partes sabe 
más que la otra, tiene información que los demás no conocen. 

En ciencias sociales, es en ciencia política donde la teoría de juegos ha 
sido especialmente importante (Riker 1992). En la medida en que la ciencia 


1 El lector interesado en la historia de la teoría de juegos, puede consultar Wientraub (1992) 
y Kuhn (1997). 

2 Un manual introductorio a la teoría de juegos desde esta perspectiva es Gintis (2000). 

3 Un panorama general puede encontrarse en Camerer (2003). 
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política estudia situaciones estratégicas (negociaciones entre Estados, com¬ 
petición entre partidos, relaciones entre grupos de interés y gobiernos, 
conflictos entre instituciones, etc.), la teoría de juegos encuentra un terreno 
fértil. El uso de modelos de teoría de juegos es habitual en las principales re¬ 
vistas de ciencia política. Resulta frecuente encontrar modelos formales en 
las páginas de American Political Science Review, American Journal of Politi - 
cal Science , European Journal of Political Research , Journal of Theoretical Po- 
litics, Rationality & Society e incluso en revistas más tradicionales como 
World Politics o International Organization . La teoría de juegos ha pasado a 
ser una herramienta casi tan importante como las técnicas estadísticas de 
análisis de datos. 

La sociología, aunque en menor medida que la ciencia política, también 
muestra un interés creciente por la teoría de juegos. Así, desde los modelos 
matemáticos de Coleman (1990) hasta la apuesta fuerte de Goldthorpe 
(2000: caps. 5-6) por la elección racional, pasando por los trabajos de lo que 
se llamó 'marxismo analítico” (Roemer 1986) o por los estudios de acción 
colectiva y movimientos sociales (Marwell y Oliver 1995, Heckathom 1996) 
hay trabajos abundantes en los que, de manera programática o aplicada, se 
usa el instrumental de la teoría de juegos. 

No obstante esta difusión rápida y amplia, la teoría de la elección racio¬ 
nal, y con ella la teoría de juegos, ha sido objeto de una intensa discusión 
metodológica en ciencia política y también en sociología, sobre todo a partir 
de la publicación en 1994 del libro de Donald Green e Ian Shapiro, Patholo- 
gies of Rational Choice. Se ha acusado a esta teoría de estar más preocupada 
por la elegancia formal de los modelos que por su relevancia empírica. Se ha 
objetado también que, cuando la teoría se interesa por la realidad, suele ser 
inmune a los fracasos, pues siempre cabe hacer modificaciones ad hoc de los 
modelos hasta que éstos se ajusten a los hechos. A juicio de sus críticos, la 
teoría de la elección racional está lastrada por sus planteamientos universa¬ 
listas (aplicación irrestricta del supuesto de racionalidad) y por una ambi¬ 
ción excesiva. La resistencia a la teoría está incluso relativamente organiza¬ 
da. Un movimiento de académicos, agrupados bajo el nombre de Perestroika , 
ha protestado, llegando hasta las páginas de New York Times, por la hegemo¬ 
nía intelectual y la influencia institucional que ha adquirido la teoría en la 
ciencia política (Monroe 2005). 

No se entra aquí en esa discusión, pues nos alejaría del objetivo principal, 
la exposición de la propia teoría. Gon todo, no está de más hacer algunas ob¬ 
servaciones generales y breves sobre las ventajas e inconvenientes que plan¬ 
tea el uso de la teoría de juegos en las ciencias sociales. La teoría de juegos 
parte del supuesto común a toda la teoría económica de que los agentes ac¬ 
túan en función de sus preferencias, es decir, que tratan de maximizar su 
utilidad. El valor añadido de la teoría de juegos radica en que especifica en 
qué consiste actuar en función de preferencias en situaciones estratégicas. 
Establece qué estrategias son racionales dado que cada agente sabe que 
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todos los demás están también tratando de maximizar su utilidad. Así, se 
dice que una combinación de estrategias constituye un equilibrio cuando 
ninguno de los agentes puede aumentar unilateralmente su utilidad cam¬ 
biando de estrategia. La teoría de juegos calcula en cada juego qué cuenta 
como equilibrio. 

Gracias al concepto de equilibrio, economistas, politólogos y sociólogos 
pueden elaborar modelos formales de situaciones estratégicas 4 . Para la cons¬ 
trucción del modelo es necesario tomar decisiones sobre qué es esencial y 
qué es accidental o accesorio en la descripción de la situación que se quiere 
analizar. En primer lugar, hay que identificar cuáles son los actores relevan¬ 
tes. En segundo lugar, hay que especificar qué preferencias tienen los acto¬ 
res. No siempre es fácil hacerlo, pues es preciso contar con alguna razón po¬ 
derosa para atribuir unas preferencias y no otras. En caso contrario, cabe 
sospechar que se eligieron unas preferencias determinadas para conseguir 
derivar un equilibrio que coincida con la realidad, en cuyo caso el modelo no 
tiene valor explicativo alguno. En tercer lugar, hay que especificar también 
de qué tipo de información disponen los actores. En cuarto lugar, hay que 
aclarar qué estrategias o qué acciones pueden llevar a cabo los actores. Una 
vez identificados los actores, sus preferencias, su información y sus estrate¬ 
gias, se procede a "resolver” el modelo, es decir, se calcula qué combinacio¬ 
nes de estrategias pueden ser equilibrios cuando los actores son racionales. 

Los equilibrios sirven de base para la derivación de consecuencias empí¬ 
ricas del modelo. Se puede comprobar si los resultados de la realidad coinci¬ 
den en mayor o menor medida con el modelo. Si no coinciden, siempre cabe 
la posibilidad de arreglarlo modificando alguno de los supuestos iniciales so¬ 
bre el número de jugadores, sus preferencias o su información. Para garanti¬ 
zar que el modelo pueda ser puesto a prueba con algo más de rigor, no se 
debe comparar una situación concreta con el equilibrio predicho por el mo¬ 
delo, sino más bien establecer conclusiones sobre cómo el equilibrio se 
modifica cuando cambian los valores de las variables independientes que se¬ 
gún el modelo tienen peso explicativo. De esta forma, el investigador puede 
elegir varios casos empíricos, cada uno con valores diferentes en las varia¬ 
bles independientes, y explicar las variaciones encontradas en la variable de¬ 
pendiente a partir de los cambios en el equilibrio que se producen cuando 
varían las variables independientes. 

Un ejemplo que ilustra este procedimiento puede ser el de los modelos de 
democratización desarrollados por Daron Acemoglu y James A. Robinson en 
su celebrado libro Economic Origins of Dictatorship and Democracy (2006). 
Los autores han elaborado un conjunto de modelos de teoría de juegos para 
explicar por qué algunos países se transforman en democracias estables, 
otros permanecen como regímenes dictatoriales y finalmente algunos transitan 


4 Un libro interesante sobre los problemas de elaboración y uso de modelos formales en las 
ciencias sociales es Morton (1999). 
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de forma inestable entre la democracia y la dictadura. A su juicio, la demo¬ 
cracia es una solución institucional que aceptan a regañadientes los ricos 
para evitar una revolución de los pobres que acabe con su riqueza. Las re¬ 
glas democráticas garantizan a los pobres cierto nivel de redistribución eco¬ 
nómica, previniéndose de este modo cualquier intento revolucionario. El 
análisis de las condiciones en las que la democracia es un equilibrio (un sis¬ 
tema político en el que ningún grupo con poder para ello intenta cambiar) 
permite formular hipótesis empíricamente verificables y a las que habría 
sido difícil llegar de no ser por el modelo. Por ejemplo, los autores demues¬ 
tran que, dados los supuestos de partida, la democracia es más probable que 
arraigue en países en los que hay un grado intermedio de desigualdad econó¬ 
mica. En regímenes con mucha igualdad el problema redistributivo es me¬ 
nor y por tanto puede que no llegue a surgir una demanda de democracia; 
mientras que en regímenes muy desiguales los ricos tienen tanto que perder 
que prefieren reprimir y mantener un régimen dictatorial antes que dar paso 
a una democracia que podría resultar demasiado costosa en términos econó¬ 
micos. 

Los modelos de teoría de juegos son especialmente útiles en las ciencias 
sociales cuando consiguen proporcionar hipótesis de trabajo a las que no se 
podría haber llegado sin la mediación del modelo. Con todo, los modelos 
pueden tener otros usos que van más allá de su aplicación empírica inmedia¬ 
ta. Con frecuencia, sirven para introducir claridad y precisión en cuestiones 
que empíricamente son muy complejas. Así, el modelo ideal de competición 
bipartidista establece que en equilibrio los partidos presentan programas 
electorales idénticos. Sin duda, no se trata de una predicción demasiado rea¬ 
lista. Sin embargo, el modelo es importante, pues configura un punto de re¬ 
ferencia básico a partir del cual se pueden ir introduciendo variables nuevas 
(incertidumbre, distintos tipos de preferencias de los partidos) que contribu¬ 
yan a aproximamos mejor a la realidad. 

Al emplear modelos de teoría de juegos, el científico social se comprome¬ 
te a ser transparente en los supuestos que realiza. De la misma manera, el 
modelo garantiza que haya una conexión lógica entre dichos supuestos y las 
hipótesis últimas que se deriven del equilibrio encontrado. Se gana por tanto 
en rigor y claridad. Como contrapartida, los modelos obligan a dejar de lado 
información empírica detallada que puede ser de gran interés pero que, se¬ 
gún la teoría, no es necesaria para entender el asunto que se esté analizando. 
Desde un punto de vista instrumental, cabe decir que los modelos de teoría 
de juegos son una herramienta para el científico social: no hay razón para 
usarlos siempre, pero tampoco para rechazarlos por principio. 

Este libro se divide en cinco capítulos. El primero es una introducción a 
la teoría de la utilidad. El segundo aborda los juegos en forma normal. El 
tercero se adentra en los juegos en forma extensiva. El cuarto estudia los jue¬ 
gos repetidos a lo largo del tiempo. El quinto analiza los juegos de informa¬ 
ción incompleta. En cada capítulo se incluye una sección en la que se aplica 
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el instrumental teórico correspondiente a algún problema específico de cien¬ 
cia política o sociología. Para ello, se resumen y simplifican modelos que 
han aparecido en la literatura y que se ajustan bien a las necesidades de un 
libro introductorio como éste. Así, en el primer capítulo se expone un mode¬ 
lo sobre la decisión de los partidos políticos de moderarse ideológicamente 
para ganar las elecciones (Sánchez-Cuenca 2004); en el segundo, se presenta 
un modelo sobre reformas administrativas en Latinoamérica (Geddes 1992); 
en el tercero, se analiza, por un lado, el conflicto étnico en la guerra civil yu¬ 
goeslava (Fearon 1998) y, por otro, la política monetaria y la independencia 
de los bancos centrales (Barro y Gordon 1983); en el cuarto se aborda un 
modelo sobre la formación de ideologías políticas a partir de coaliciones de 
intereses (Bawn 1999); y en el quinto se analiza un modelo sobre democracia 
y redistribución de la riqueza (Boix 2003). Estas aplicaciones ayudan a clari¬ 
ficar los conceptos de la teoría de juegos e ilustran cómo esta teoría se puede 
utilizar en las ciencias sociales para entender mejor la realidad. 

Nota sobre la segunda edición : Esta segunda edición mejora y amplía no¬ 
tablemente la original de 2004. Ante todo, se han corregido diversos errores 
de la versión anterior. Además, en esta ocasión el Comité Editorial de la se¬ 
rie Cuadernos Metodológicos del CIS ha tenido a bien dejar un mayor mar¬ 
gen de discrecionalidad en la selección de los modelos aplicados, lo que me 
ha permitido cambiar varios de los modelos que se presentaban en la prime¬ 
ra edición y añadir algunos nuevos. Confío en que, de esta manera, haya un 
mejor ajuste entre los contenidos teóricos y aplicados del libro. Por último, 
he modificado en gran medida la exposición del capítulo 1 sobre teoría de la 
utilidad, añadiendo un análisis más sistemático sobre la idea de racionali¬ 
dad, el principio de utilidad esperada y las actitudes hacia el riesgo. Quisiera 
aprovechar esta nota para agradecer a los estudiantes del Centro de Estudios 
Avanzados en Ciencias Sociales del Instituto Juan March que pasaron por mi 
curso sobre teoría de juegos y modelos formales en ciencia política. Este 
libro lo he escrito a partir de los materiales que durante siete años utilicé en 
la preparación de aquel curso. 



El principio de racionalidad 
y la teoría de la utilidad 


El principio de racionalidad 

La teoría de la elección racional, como ya se ha mencionado en la introduc¬ 
ción, parte del supuesto de que los agentes son racionales. Conviene explicar 
qué quiere decir exactamente que los agentes sean racionales. Primero se 
presenta una definición genérica, que vale para todas las situaciones posi¬ 
bles y luego se analiza cómo dicha definición genérica se desarrolla de modo 
distinto en función del tipo de problema con el que se enfrente el agente. 
Hay versiones más exigentes que otras con respecto a los contenidos de la 
racionalidad. Que una versión de la racionalidad sea más exigente que otra 
significa que parte de supuestos más restrictivos sobre la forma en la que el 
agente toma sus decisiones. Cuanto más exigente sea la definición de racio¬ 
nalidad que se maneja, menos realista resulta. 

La premisa de la que parte el supuesto de racionalidad es muy sencilla: 
los agentes (ya sean actores individuales, es decir, personas, o colectivos, 
como Estados, partidos políticos, sindicatos, clases sociales) tienen deseos 
sobre cómo les gustaría que fuera el mundo y creencias acerca de cómo fun¬ 
ciona el mundo. En la terminología propia de la teoría económica y la teoría 
de la elección racional, a esos deseos se les llama preferencias. Una vez que el 
agente tiene unas preferencias, el principio de racionalidad establece que 
el agente actuará en función de las mismas. Que el agente elija a partir de sus 
preferencias sólo significa que el agente actúa buscando lo mejor frente a lo 
peor. Este supuesto se conoce también como el supuesto de comportamiento 
auto-interesado. El agente actúa en función de sus preferencias y no en fun¬ 
ción de las preferencias de los demás. 

Comportamiento auto-interesado no implica necesariamente comporta¬ 
miento egoísta. El agente puede ser egoísta, en el sentido de que sólo se preo¬ 
cupe por su propio bienestar, pero puede ser también altruista o envidioso, 
en el sentido de que además de su propio bienestar le preocupe también el 
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bienestar de los demás. Si el agente tiene preferencias acerca del bienestar 
de los demás, sigue siendo auto-interesado, pues actúa todavía en función de 
sus preferencias. El altruista se alegra de que los demás mejoren su condi¬ 
ción, mientras que el envidioso se lamenta. 

A pesar de que el principio del comportamiento auto-interesado sirva 
para un espectro tan amplio de motivaciones, lo cierto es que en la literatura 
casi siempre se parte de comportamiento egoísta (Sánchez-Cuenca 2008). El 
supuesto del egoísmo suele introducirse no porque el investigador piense 
que los agentes son verdaderamente egoístas, sino más bien por razones me¬ 
todológicas, ya sea porque se crea que de otra manera la teoría no es verifi- 
cable empíricamente, ya sea porque se tema que la teoría se vuelva tautológi¬ 
ca, vacía de contenido. En cuanto a la verificación: como se ha visto antes, 
las preferencias son privadas, se revelan indirectamente en el comporta¬ 
miento del agente. De ahí que cuanto más variadas sean las preferencias, 
más difícil resulte comprobar si la teoría es cierta o no. En cuanto a la tauto¬ 
logía: si al agente puede atribuírsele cualquier tipo de preferencia, al final 
siempre podremos conseguir una explicación de su acción. El supuesto de 
egoísmo es tan sólo un caso especial, aunque habitual, de comportamiento 
auto-interesado. En el plano de abstracción en el que todavía nos estamos 
moviendo, el principio de racionalidad se define a partir del comportamien¬ 
to auto-interesado, no a partir del comportamiento egoísta. Con otras pala¬ 
bras, tener preferencias no egoístas no implica que el agente sea irracional. 
Otra cosa es que cuando la teoría se aplique en situaciones concretas, se su¬ 
ponga que el comportamiento auto-interesado sea de naturaleza egoísta. 

En este capítulo se define el principio de racionalidad en los términos 
más generales posibles, sin realizar supuesto alguno sobre el contenido de 
las preferencias del agente. Para ello, conviene analizar formalmente el con¬ 
cepto de preferencia y sus propiedades. La preferencia se puede definir 
como una relación binaria entre alternativas. Para explicar qué quiere decir 
esto exactamente, comenzaremos situándonos en un contexto de certidum¬ 
bre, en el que cada acción del agente se asocia a un resultado único. Por 
ejemplo, al elegir entre ir al cine o al fútbol, mi decisión se realiza con certi¬ 
dumbre. En cambio, al elegir entre dos partidos políticos en unas elecciones, 
actúo con incertidumbre, pues nunca puedo estar seguro de antemano acer¬ 
ca de qué van a hacer los partidos en caso de llegar al poder. 

Con certidumbre, tenemos un conjunto de acciones A = [a v a v ..., a k ), un 
conjunto de resultados producidos por las acciones X = {x v x v x k ) y una 
función x: A —> X que establece que a cada acción le corresponde un único 
resultado. Pues bien, en este contexto de certidumbre, las preferencias se 
pueden definir igualmente en términos de acciones o de resultados. Con 
otras palabras, al decir que las preferencias son relaciones binarias entre al¬ 
ternativas, las alternativas pueden ser tanto acciones como resultados. Cuan¬ 
do pasemos a examinar el caso de la incertidumbre, veremos que las prefe¬ 
rencias se definen sólo en términos de acciones. 
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La relación binaria de preferencia entre dos resultados cualesquiera x. y 
x. se representa así: 


xRx. 

La expresión anterior se interpreta de la siguiente forma: el resultado x. 
no se prefiere al resultado x (t o, lo que es igual, x. es al menos tan bueno 
como x.. Técnicamente, a esta relación binaría se le llama preferencia débil, 
frente a la preferencia estricta, que se presenta como un caso especial y re¬ 
presentamos como la relación P. La definición es la siguiente: 

xPx. si y sólo si sucede que x.Rx. y ~xRx i 

El signo representa la negación lógica. Por tanto, decimos que x. se 
prefiere estrictamente a x. cuando x. es al menos tan bueno como x. y no es 
cierto que x. sea tan bueno como x r Igualmente, podemos definir la relación 
/ de indiferencia como sigue: 

xíx. si y sólo si sucede que xRx. y x j Rx i 

El agente es racional cuando el agente elige en función de sus preferen¬ 
cias (frente a los impulsos, la tradición, la imitación o cualquier otra forma 
de motivación que no sea reducible a preferencias) y estas preferencias cum¬ 
plen ciertas condiciones que garantizan su coherencia interna. En concreto, 
las preferencias han de ser una ordenación débil. Una relación binaria es 
una ordenación débil cuando cumple tres propiedades, la completitud, la 
reflexividad y la transitividad. A continuación se definen estas tres propie¬ 
dades: 

(1) Completitud: dados dos resultados cualesquiera, tiene que suceder 
alguna de estas tres cosas siendo T y '<&' los símbolos lógicos de la 
disyunción y la conjunción respectivamente: 

xJRx. I xRx. I (xJRXj & xRxJ 

(2) Reflexividad: para todo resultado x., xRx i 

(3) Transitividad: para cualquier subconjunto de tres resultados, se cum¬ 
ple que 

xjRx & xRx , —> xRx , 

l ] } K l K 

Con palabras: la propiedad de la completitud requiere que ante dos resul¬ 
tados cualesquiera, el agente sea capaz de compararlos y definir sus prefe¬ 
rencias, contemplándose, claro está, la posibilidad de la indiferencia. Sola- 
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mente se excluye la posibilidad de que haya resultados tan distintos entre sí 
que no sean comparables en ningún sentido. La reflexividad es una propie¬ 
dad trivial: cualquier resultado es tan bueno como sí mismo. La propiedad 
más importante es, sin duda, la de la transitividad, pues garantiza que las 
elecciones del agente tengan sentido. Si x } se prefiere ax 2 yt 2 a x 3 , no ten¬ 
dría sentido que x 3 se prefiriera a x r El agente adoptaría cursos de acción 
contradictorios si sus preferencias no cumplieran la propiedad de ser transi¬ 
tivas. 

El principio de racionalidad puede formularse entonces del siguiente 
modo: un agente es racional si actúa en función de sus preferencias y sus 
preferencias son una ordenación débil (cumplen las propiedades de comple- 
titud, reflexividad y transitividad). 


Funciones de utilidad 

Una función de utilidad asigna números a las preferencias. Dichos números 
miden la utilidad o el bienestar que una persona obtiene si se da un cierto 
resultado cuando realiza una acción. La utilidad, por tanto, no es más que la 
traducción cuantitativa de las preferencias. Cuando hablamos en estos tér¬ 
minos, el supuesto de racionalidad implica que el agente elige aquella acción 
que maximiza su función de utilidad. Como el valor máximo de la función 
equivale a la opción más preferida, decir que alguien actúa racionalmente 
cuando elige a partir de sus preferencias o cuando maximiza su función de 
utilidad es equivalente. En cualquier caso, es fundamental recordar que la 
relación más básica es la de preferencia. Porque preferimos x¿ a x. f x { nos 
proporciona más utilidad que x.y no al revés: no es que porque x. proporcio¬ 
na más utilidad que x. preferimos x { a x.. Valga la siguiente analogía: así 
como no decimos que hace más calor porque el termómetro marca una tem¬ 
peratura más alta, sino que el termómetro marca una temperatura más alta 
porque hace calor, tampoco se prefiere algo porque proporcione más utili¬ 
dad, sino que proporciona más utilidad porque se prefiere en mayor medida 
que otras cosas. 

Las funciones de utilidad tienen grados diversos de complejidad según el 
contexto de la acción en el que se apliquen. Siguiendo con el esquema pro¬ 
puesto en la introducción, lo fundamental es averiguar si el agente, al actuar, 
tiene o no certidumbre acerca de los resultados que su acción provocará. La 
incertidumbre, como veremos en seguida, introduce cierta complicación en 
el análisis. 
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Funciones de utilidad en contextos paramétricos de certidumbre 

Si hay certidumbre, basta, para representar las preferencias del agente, una 
función de utilidad ordinal, es decir, una función que ordena resultados pero 
no mide la distancia que hay en términos de utilidad entre un resultado y 
otro. Cuando se sabe a ciencia cierta qué resultado va a producir la acción, 
el resultado más preferido es el que proporciona más utilidad y por tanto da 
igual a qué distancia en utilidad esté ese resultado del siguiente, puesto que 
el agente siempre elige su primera preferencia. A fin de caracterizar la elec¬ 
ción racional, basta por tanto con que la función ordene las preferencias. 

Sea U(x) la utilidad que proporciona el resultado x r Formalmente, pode¬ 
mos caracterizar así la propiedad específica de las funciones de utilidad en 
contextos de certidumbre: 

Si x.>x jt entonces U(x i )^U(x j ). 

Lo único que importa en esta función de utilidad es que el primer núme¬ 
ro sea mayor que el segundo, dando igual cuánto mayor sea. Por ejemplo, si 
las preferencias son tales que x { > x 2 > x 3 , cualquier función de utilidad que 
satisfaga U{x^) > f/(x 2 ) > U(x 3 ) representa igualmente bien el orden de prefe¬ 
rencias subyacente. Las dos funciones siguientes son iguales: 

Función A Función B 

U(x { ) = 100 U(x x ) = 1 

U(x 2 ) = 25 U(x 2 ) = 0 

U(x 3 ) = -1.000 U(x 3 ) = -1 

Nótese que no hay ninguna relación lineal entre ambas funciones. Las 
dos funciones reflejan igualmente el orden de preferencias porque en ambos 
casos x 1 es el resultado más preferido, x 3 el menos, y x 2 ocupa la posición in¬ 
termedia. 


Funciones de utilidad con incertidumbre 

Cuando no hay certidumbre, el agente no puede saber con seguridad cuál va 
a ser el resultado de cada una de sus acciones. Por tanto, no podemos asig¬ 
nar un resultado único a una acción y a continuación calcular la utilidad de 
la acción a partir de la utilidad del resultado. Ahora la utilidad ha de ser 
calculada teniendo en cuenta todos los resultados que una acción puede pro¬ 
ducir. De este modo, el argumento de la función de utilidad son ahora las 
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acciones, no los resultados, pues el agente puede elegir directamente entre 
diversos cursos de acción, pero no tiene la capacidad de elegir resultados. 

La ontología del problema de decisión se complica en consecuencia. An¬ 
tes era suficiente con definir un conjunto A de acciones y un conjunto X de 
resultados. Cabía definir una función x: A —> X que establecía qué resultado x 
se asociaba a cada acción a. Ahora tenemos que introducir un nuevo elemen¬ 
to, los estados del mundo. Diremos que hay un conjunto E = [e p e 2 , ..., e k ] en 
el que cada elemento es un estado del mundo que determina si una acción 
produce un resultado u otro. Formalmente, se construirá una función x{a, e): 
A x E X, en la que los resultados se derivan de una combinación de accio¬ 
nes y estados del mundo. 

La mejor manera de ilustrar esta idea será a través de un ejemplo. Supon¬ 
gamos un político que es acusado con fundamento de haber malversado fon¬ 
dos. El político no sabe si las acusaciones se basan en pruebas o son sólo 
meras sospechas. Hay dos estados del mundo acerca de los cuales no tiene 
certidumbre: o bien hay pruebas que respaldan las acusaciones o bien no las 
hay. El político puede hacer tres cosas: negarlo todo, reconocer una parte o 
reconocerlo todo. Los datos del problema, incluyendo los resultados, se resu¬ 
men en el cuadro 1.1. Si el político lo niega todo y el estado del mundo es 
aquel en el que no hay pruebas, sale reforzado en su posición por haber sido 
víctima de un ataque injusto; si lo niega todo y, sin embargo, el estado del 
mundo es aquel en el que hay pruebas, se le obliga a dimitir. Si lo confiesa 
todo, da igual el estado del mundo, el caso es que se le obliga a dimitir. Si 
confiesa parte, sale debilitado haya o no pruebas, pero no se fuerza su desti¬ 
tución por haber hecho frente a las acusaciones siendo sincero hasta cierto 
punto. 


CUADRO 1.1 


EL PROBLEMA DEL POLÍTICO CORRUPTO 


Acciones 

Estados del mundo 

Hay pruebas (ej 

No hay pruebas (e 2 ) 

Negarlo todo (a : ) 

Destituido (x,) 

Reforzado (x 3 ) 

Confesar parte (a 2 ) 

Debilitado (x 2 j 

Debilitado (x 2 ) 

Confesar todo (a 3 ) 

Destituido (x^ 

Destituido (x,) 


Dado lo que sabemos acerca de las motivaciones y los comportamientos 
de los políticos en una democracia, no es demasiado arriesgado imputar 
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unas preferencias según las cuales el político prefiere salir reforzado a que¬ 
dar debilitado y prefiere también quedar debilitado a ser destituido: 

*3 

El problema radica en que el político no puede elegir directamente el re¬ 
sultado de salir reforzado. Para conseguir ese resultado, tiene que elegir la 
acción de negar todas las acusaciones, pero acabamos de ver que dicha ac¬ 
ción produce resultados inciertos, pues dependiendo de cuál sea el estado 
del mundo verdadero, su acción puede dar lugar al resultado más deseado, 
salir reforzado, pero también al menos deseado, ser destituido. ¿Cómo reali¬ 
za su elección entonces el agente racional? 

La teoría de la elección racional se limita en este punto a formalizar el 
sentido común. Éste nos indica que el político se arriesgará a negarlo todo si 
considera que el estado del mundo en el que no hay pruebas es muy proba¬ 
ble. Si, por el contrario, piensa que lo más probable es que haya pruebas, 
elegirá otras acciones antes que negarlo todo. Lo que hace el agente, por tan¬ 
to, es ponderar los resultados posibles de las acciones por su probabilidad de 
ocurrencia. De esta manera, el agente puede valorar y comparar entre sí los 
distintos cursos de acción incluso cuando hay incertidumbre. 

La idea fundamental de utilidad esperada recoge esta intuición. Para su 
definición formal, necesitamos los siguientes elementos. Primero, las proba¬ 
bilidades de ocurrencia de los distintos estados del mundo, o lo que es igual, 
una distribución de probabilidad sobre los estados del mundo. La probabili¬ 
dad de cada estado del mundo la representaremos genéricamente como p(e). 
La suma de todas ellas, evidentemente, da 1. Estas probabilidades pueden 
entenderse en sentido objetivo, como frecuencias relativas en el límite, o en 
sentido subjetivo, como creencias del agente acerca del mundo. En el ejem¬ 
plo del político corrupto, las probabilidades son claramente creencias, ya 
que no cabe aplicar en este contexto frecuencias relativas. Segundo, tenemos 
la utilidad de los resultados, que representaremos como U\x(a, e)], es decir, la 
utilidad del resultado x que resulta de la acción a en un estado del mundo e . 
Por último, tenemos la utilidad esperada asociada a una acción a , que repre¬ 
sentaremos como UE(a), y que definiremos como la suma de las utilidades 
de todos los resultados posibles asociados a la acción a ponderados por su 
probabilidad de ocurrencia en cada caso. Es decir, 

UE(a) = 2 p(e)U[x(a, e)], 2 P = 1 

A continuación intentaremos aplicar la utilidad esperada en el ejemplo 
del político corrupto. Para ello, daremos valores a las probabilidades de los 
dos estados del mundo (que haya pruebas o que no las haya). Además, asig¬ 
naremos unos valores arbitrarios entre 0 y 1 a la utilidad de los resultados. 
En la sección siguiente veremos cómo pueden establecerse esos valores 
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numéricos de tal manera que reflejen las preferencias del agente. En concre¬ 
to, supondremos lo siguiente: 

U( Reforzado) = 1 p(Hay pruebas) = 0,2 

[/(Debilitado) = 0,6 p {No hay pruebas) = 0,8 

[/(Destituido) = 0 

Dadas estas medidas de utilidad con respecto a los resultados y dadas es¬ 
tas probabilidades o creencias, podemos calcular ahora la utilidad esperada 
que corresponde a cada acción posible: 

[/¿■(Negarlo todo) = p(Hay pruebas)[/(Destituido) + 

+ jí?(No hay pruebas)[/(Reforzado) 


Sustituyendo, 


[/¿(Negarlo todo) = 0,2*0 + 0,8*1 = 0,8. 

Igualmente, para la acción de confesar parte: 

[/¿(Confesar parte) = p(Hay pruebas) [/(Debilitado) + 

+ p {No hay pruebas)[/(Debilitado) 

Sustituyendo, 

[/¿(Confesar parte) = 0,2*0,6 + 0,8*0,6 = 0,6. 

Finalmente, en cuanto a confesarlo todo, 

[/¿(Confesar todo) = p(Hay pruebas) [/(Destituido) 

+ p (No hay pruebas)[/(Destituido) 

Sustituyendo, 


[/¿(Confesar todo) = 0,2*0 -+- 0,8*0 = 0. 

La mayor utilidad esperada se produce cuando el político lo niega todo. 
Por lo tanto, un político racional negará las acusaciones de escándalo si los 
datos del problema se corresponden con los que aquí hemos supuesto. Ne¬ 
garlo todo maximiza la utilidad del agente. Por supuesto, podría suceder que 
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los distintos resultados se valoraran de otra forma, o que el político tuviese 
distintas creencias sobre si hay pruebas o no. Por ejemplo, supóngase que, 
manteniendo constantes las utilidades de los resultados, queremos saber con 
qué creencias sobre la existencia de pruebas el político preferirá confesar 
parte a negarlo todo. Es decir, lo que se pide es resolver la siguiente inecua¬ 
ción o desigualdad: 

t/E(Confesar parte) ^ UE( Negarlo todo) 

Dando valores a todo menos a p, que es lo que queremos averiguar, la 
desigualdad a resolver se puede expresar así: 

p0,6 + (1 -p)0,6 >p0 + (1 -p)í 

Es fácil darse cuenta de que esta desigualdad sólo se cumple cuando 
p > 0,4. Si la creencia de que hay pruebas es superior a 0,4, entonces el polí¬ 
tico confesará parte, pues esa acción es la que ahora maximiza su utilidad. 

En este ejemplo es evidente que la clave está en que la utilidad que se 
asigna a los resultados tenga alguna justificación. Y esto por dos razones: 
primero, porque si podemos alterar a conveniencia la utilidad de los resulta¬ 
dos, la utilidad esperada de cada acción variará arbitrariamente. Segundo, 
porque estamos ponderando dichas utilidades por las probabilidades conte¬ 
nidas en las creencias y esa ponderación sólo tiene sentido si dichas utilida¬ 
des no son arbitrarias. Con otras palabras, lo que se revela en el ejemplo an¬ 
terior es que tanto las utilidades de los resultados como la propia utilidad 
esperada se tienen que expresar cardinalmente, no ordinalmente. Importa 
no sólo el orden de las utilidades, sino también la distancia entre ellas. La 
cuestión es: ¿hay alguna forma de definir cardinalmente la utilidad para que 
pueda aplicarse el principio de utilidad esperada? La respuesta es afirmati¬ 
va. Fueron los fundadores de la teoría de juegos, John von Neumann y Oskar 
Morgenstem, los que propusieron una solución. 


Las funciones de utilidad Von Neumann-Morgenstem 

Las funciones de utilidad Von Neuman-Morgenstem son cardinales porque 
sus creadores consiguieron idear un método no arbitrario para asignar valo¬ 
res numéricos a los resultados. Se trata de ver cómo se valoran los resulta¬ 
dos intermedios (los que están entre el mejor y el peor resultado) en térmi¬ 
nos de una lotería en la que sólo intervengan el mejor y el peor resultado. 
Una lotería L se define como un emparejamiento de probabilidades y resul¬ 
tados. Formalmente, 


L = ( Pl x r P2 x 2 , Pn x„), 2) P¡ = 1 



22 


CUADERNOS METODOLÓGICOS 34 


Von Neumann y Morgenstem utilizan esta definición de lotería para con¬ 
seguir utilidades cardinales. En el ejemplo del político corrupto, teníamos 
tres resultados, “reforzado”, “debilitado” y “destituido". De lo que se trata es 
de expresar la utilidad del resultado intermedio, “debilitado”, en términos de 
una lotería entre el mejor y el peor resultado, es decir, en términos de “refor¬ 
zado” y “destituido". Más concretamente, de lo que se trata es de medir la 
valoración del resultado intermedio en términos del riesgo que estaría el 
agente dispuesto a asumir por conseguir el mejor resultado, “reforzado”. 

Veamos esto con un poco de detalle. Supongamos que al político se le 
plantea este dilema: ha de elegir entre quedar debilitado con seguridad, o 
una lotería en la que hay una probabilidad de dos quintos (40%) de salir re¬ 
forzado y una probabilidad de tres quintos (60%) de ser destituido. La lote¬ 
ría se representaría formalmente como (0,4x 3 , 0,6x¡). En este caso, el político 
dice que prefiere salir debilitado con seguridad a participar en semejante lo¬ 
tería. Esto es así porque la valoración relativa de salir debilitado frente a sa¬ 
lir reforzado no queda bien reflejada en la lotería anterior: el político necesi¬ 
ta una probabilidad todavía mayor de salir reforzado para aceptar la lotería. 
Si la lotería fuese en cambio (0,&t 3 , 0,2x ; ), el político preferiría jugar dicha 
lotería a salir debilitado con seguridad. Podemos seguir afinando en este in¬ 
tercambio entre un resultado seguro y una lotería en la que intervengan el 
primer y el último resultado hasta llegar a un punto de indiferencia. Con los 
datos del ejemplo, supondremos que el político es indiferente entre salir de¬ 
bilitado con certeza y la lotería (0,6^, 0,4x y ). En cierto modo, esto significa 
que el resultado intermedio, salir debilitado, vale un 60% con respecto al pri¬ 
mer resultado, que es salir reforzado. 

La forma de medir cardinalmente las utilidades de los resultados consiste 
en encontrar el punto de indiferencia entre un resultado intermedio seguro y 
una lotería en la que sólo intervengan el mejor y el peor resultado. Por co¬ 
modidad, “normalizamos” la escala de utilidad, forzando que el mejor resul¬ 
tado valga 1 y el peor 0. Las opciones intermedias se sitúan entre 0 y 1 de¬ 
pendiendo del riesgo que el agente esté dispuesto a asumir por jugar tal 
lotería. Cuanto mayor sea la probabilidad de conseguir el mejor resultado 
que es necesaria para conseguir la indiferencia, menor es el riesgo que está 
dispuesto a asumir el agente, lo que significa que más valora la opción inter¬ 
media. En el ejemplo partimos de esta situación: 

U(x 3 ) = 1 

U(x x ) = 0 

U(x 2 ) = U(L( 0,6x 3 , °> 4x ¿ = 0,6 

Como la utilidad de x 2 es la misma que la de la lotería L, y la lotería L tie¬ 
ne una utilidad esperada de 0,6 (0,6*1 + 0,4*0), asignamos la utilidad 0,6 
a x r De esta manera, hemos conseguido una forma no arbitraria de asignar 
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utilidad cardinal a los resultados. Lo mismo podríamos hacer si hubiera más 
de un resultado intermedio. En ese caso, se busca una relación de indiferen¬ 
cia entre cada resultado intermedio y la respectiva lotería entre el mejor y el 
peor resultado posible. 

Una vez visto qué es una lotería y cómo se asignan valores cardinales a 
los resultados en función de loterías especiales en las que sólo intervienen el 
mejor y el peor resultado, podemos caracterizar con más rigor en qué consis¬ 
te una función de utilidad Von Neumann-Morgenstem. La novedad principal 
de estas funciones es que se defínen sobre loterías. Es decir, dadas varias lo¬ 
terías, la función de utilidad Von Neumann-Morgenstern asigna números 
cardinales a cada lotería que reflejan la intensidad de las preferencias subya¬ 
centes sobre dichas loterías. ¿Qué interés tiene definir la función de utilidad 
a partir de loterías? En realidad, es la única manera de resolver el problema 
general de la utilidad esperada. Supongamos que el agente tiene que elegir 
entre estas dos loterías L y L\ donde x 1 es el mejor resultado, x 4 el peor y x 2 
y x 3 los resultados intermedios: 

L = (0,4* r 0,1* 2 , 0 , 2 * 3 , 0,3* 4 ) 

V - (0,2*^ 0,3* 2 , 0,3* 3 , 0,2* 4 ) 

Para poder resolver un problema así, necesitamos en primer lugar cono¬ 
cer la equivalencia entre las opciones intermedias y las loterías correspon¬ 
dientes que sólo contengan la mejor y la peor opción. Supóngase que estas 
equivalencias son las siguientes: 

* 2 « (0,7* p 0,3 x 4 ) 

* 3 ** (0,4*j, 0,6* 4 ) 

Ahora podemos sustituir en L y V los resultados intermedios por sus co¬ 
rrespondientes loterías: 

L - (0,4*^ 0,l[0,7x,, 0,3* 4 ], 0,21^0,4*^ 0,6* 4 ], 0,3* 4 ) 

L' = (0,2* 1# 0,3[0,7* p 0,3* 4 ], 0,3[0,4 *j, 0,6x 4 ], 0,2* 4 ) 

Con esta transformación, las dos loterías L y V se componen únicamente 
del mejor y el peor resultado. Basta con distribuir y agrupar términos para 
poder comparar inmediatamente cuál de las dos loterías proporciona una 
probabilidad mayor de conseguir el mejor resultado. Dicha lotería será la que 
elija el agente: 


L - (0,4*^ 0,07*j, 0,03* 4 , 0,08 *j, 0,12* 4 , 0,3x 4 ) = (0,55*^ 0,45* 4 ) 
l! = (0,2*j, 0,21*j, 0,09* 4 , 0,12 *j, 0,18* 4 , 0,2* 4 ) = (0,53* 17 0,47* 4 ) 
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Puesto que la probabilidad de obtener el mejor resultado posible es más 
alta en L que en L\ un agente racional elegirá L. Esta forma de tomar una 
decisión es lo que se conoce en la teoría de la utilidad como sure-thing prin¬ 
cipie. 

Las funciones de utilidad Von Neumann-Morgenstern desempeñan un pa¬ 
pel crucial no sólo en la teoría de utilidad: los pagos de los juegos que vamos 
a ver en los siguientes capítulos están medidos en utilidad Von Neumann- 
Morgenstern. Estas funciones de utilidad permiten hacer cálculos de utilidad 
esperada gracias al procedimiento de definir las opciones intermedias en tér¬ 
minos de loterías entre la mejor y la peor opción. De este modo, se pueden 
comparar y valorar diversas loterías, justo lo que buscábamos para un con¬ 
texto de incertidumbre, en el que cada acción equivale a una lotería en la 
que se combinan probabilidades y resultados b 


Actitud hacia el riesgo 

El riesgo es la clave para medir la intensidad de las preferencias del agente. 
Se pueden medir dichas intensidades porque las funciones de utilidad son 
ahora cardinales. Pero podemos ir más lejos en el análisis del riesgo. Así, 
cabe determinar la actitud que la persona adopte hacia el riesgo, e incorpo¬ 
rar dicha actitud en la propia función de utilidad. Se trata de comprobar si 
el agente es indiferente o no entre jugar una lotería y obtener con seguridad 
el valor esperado de la lotería. 

Sea la lotería Z = [pz v ( 1 - p)z 2 }. Podemos definir el valor esperado de Z de 
la siguiente manera: 


E(Z)=pz 1 + (1 -p)z 2 

A su vez, podemos calcular la utilidad esperada de la lotería: 

UE(Z)^pU(z l ) + (l~p)U(z 2 ) 

Pues bien, la actitud hacia el riesgo se mide en función de la relación que 
haya entre el valor esperado de la lotería y la utilidad esperada de la lotería, 
es decir, entre E(Z) y UE{Z). Si la persona es indiferente entre jugar la lotería 


1 El lector interesado en la teoría de la utilidad debería consultar un manual más avanzado 
para obtener una exposición más completa sobre esta materia. Normalmente, se presenta una 
serie de axiomas sobre la utilidad y a continuación se demuestra un teorema de existencia, se¬ 
gún el cual si se satisfacen todos esos axiomas, está garantizado que hay una función de utilidad 
esperada que refleja las preferencias del agente. Con el fin de hacer más accesible la presenta¬ 
ción del material, aquí se ha optado por eliminar la presentación axiomática. 
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y el valor esperado de la lotería, quiere decir que es indiferente al riesgo. Si, 
por el contrario, prefiere jugar la lotería que recibir el valor esperado de la 
misma, entonces el agente es propenso al riesgo. Finalmente, si prefiere reci¬ 
bir el valor esperado de la lotería a jugar la lotería, es que el agente es averso 
al riesgo. 

Una forma equivalente de definir la actitud hacia el riesgo consiste en in¬ 
vestigar la prima de riesgo (risk premium) de la función de utilidad. Sea z* 
un resultado cierto cuya utilidad es la misma para el agente que la utilidad 
esperada de jugar la lotería Z: U(z*) = UE(Z). La prima de riesgo i t(Z) se defi¬ 
ne entonces de esta manera: 


tt(Z) = E(Z)-z* 


Puede interpretarse como la cantidad de dinero que el agente está dis¬ 
puesto a sacrificar para obtener un resultado seguro en lugar de tener que 
jugar la lotería. Un ejemplo ayudará a entender mejor este concepto. Sea 
Z = [4/5 1€, 1/5 16€]. El valor esperado de la lotería, medido en euros, es: 


E(Z) = 



— € = 4€ 
5 


La función de utilidad es U(x) - 4Vx. Podemos ahora calcular la utilidad 
esperada de la lotería Z, UE(Z), dada la función de utilidad especificada: 


UE(Z) = — 1/(1) + — ¡7(16) = — 4VT + — 4VTó = — + — = 6,4 
5 5 5 5 5 5 


Pues bien, la utilidad del valor esperado de la lotería, U(E(Z)), es 

17(4) = 4 V4 = 8 

Puesto que 8 > 6,4, vemos que U(E(Z)) > UE(Z). Por tanto, un agente con 
esa función de utilidad es averso al riesgo: prefiere el valor esperado de la lo¬ 
tería a jugar la lotería. La prima de riesgo se calcula de la siguiente manera: 
sea z* el resultado seguro que proporciona la misma utilidad que jugar la lo¬ 
tería. La utilidad esperada de jugar la lotería es, según acabamos de ver, 6,4. 
Por tanto, el problema que hemos de resolver es éste: 

4 Vz* = 6,4 

Despejando z*, tenemos que z* = 2,56€. Es decir, el agente, dada su aver¬ 
sión al riesgo, es indiferente entre obtener con seguridad 2,56€ y jugar una 
lotería que proporciona un valor esperado de 4€. La diferencia entre ambas 
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cantidades es la prima de riesgo, 4€ - 2,56€ = 1,44€. La cantidad de 1,44€ re¬ 
presenta lo que el agente está dispuesto a pagar con tal de no incurrir en 
riesgo jugando la lotería. Es, por tanto, lo que el agente está dispuesto a sa¬ 
crificar en dinero para poder conseguir un resultado seguro. Otra manera de 
interpretar este resultado consiste en entender la cantidad 2,56€ como el di¬ 
nero que el agente averso al riesgo está dispuesto a pagar por jugar la lotería 
Z, que tiene un valor esperado de 4€. 

Pues bien, las personas aversas al riesgo están dispuestas a pagar una 
prima de riesgo (su prima de riesgo es positiva), mientras que las personas 
indiferentes ante el riesgo tienen una prima de riesgo 0 y las personas pro¬ 
pensas al riesgo tienen una prima de riesgo negativa (están dispuestas a pa¬ 
gar dinero por jugar la lotería en lugar de obtener el valor esperado de la 
misma). 

Desde un punto de vista matemático, la actitud hacia el riesgo se puede 
determinar mediante el signo de la segunda derivada de la función de utili¬ 
dad, El gráfico 1.1 muestra la representación gráfica de tres funciones de 
utilidad. En el eje horizontal tenemos los pagos que recibe el agente medidos 
en dinero, en euros. En el eje vertical figura la utilidad que proporciona el 
dinero. Los tres tipos de actitud hacia el riesgo se corresponden con cada 
una de las curvas de utilidad del gráfico 1.1. La neutralidad queda represen¬ 
tada por la línea recta del centro, donde la utilidad tiene una relación lineal 
con el dinero. La curva de aversión al riesgo es cóncava, con segunda deriva¬ 
da negativa, y por tanto va por encima de la recta de neutralidad. La curva 
de propensión es convexa, con segunda derivada positiva, y va por debajo de 
la de neutralidad. 


GRÁFICO 1.1 

REPRESENTACIÓN DE LAS ACTITUDES HACIA EL RIESGO 
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En el ejemplo anterior, en el que la función de utilidad era U{x) = 4\dx, la 
primera y segunda derivada son: 

d£/ = _2_. d 2 U = _1_ 

dx Vx dx 2 VP 

Puesto que la segunda derivada tiene signo negativo, concluimos que el 
agente es averso al riesgo. 

En el cuadro 1.2 aparece un resumen de los criterios para medir la utili¬ 
dad hacia el riesgo. 


CUADRO 1.2 


MEDICIÓN DE LA ACTITUD HACIA EL RIESGO 



Relación entre 
U(E{Z)) y EU(Z) 

Prima de riesgo 
n(Z) 

Segunda derivada 

Aversión ai riesgo 

U(E(Z)) > EU(Z) 

?r(Z) > 0 

U" < 0 

(concavidad) 

Neutralidad ante 

el riesgo 

mz)) = EU{Z) 

n(Z) = 0 

U" = 0 
(linealidad) 

Propensión al riesgo 

mz)) < EU(Z) 

n( Z) < 0 

U” > 0 

(convexidad) 


En teoría económica suele suponerse que las personas tienen aversión al 
riesgo. Una vez establecido este supuesto, hay dos coeficientes interesantes 
para analizar. Primero, el coeficiente de aversión absoluta al riesgo (ARA, 
absolute risk aversión ), que se define así: 


r «<*> = 


-tT(x) 

U'(x) 


Este coeficiente permite comparar la aversión al riesgo entre distintos 
agentes. Nótese que no basta con comparar la segunda derivada de sus res¬ 
pectivas funciones de utilidad, puesto que las funciones Von Neumann-Mor- 
genstern son linealmente transformables (se pueden multiplicar por una 
constante o sumarle una cantidad sin que las propiedades de la función se 
alteren). En este sentido, una transformación lineal de la función puede 
afectar a la magnitud de la segunda derivada, imposibilitando así cualquier 
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comparación entre personas. Sin embargo, el cociente de las derivadas se¬ 
gunda y primera permite superar este inconveniente. 

Siguiendo con el ejemplo anterior, el coeficiente r a se calcularía así: 


rJM = 


2x m 


í_ 

2 


xr' 


El coeficiente, nótese, siempre es positivo, puesto que la segunda deriva¬ 
da siempre es negativa en funciones de utilidad con aversión al riesgo. 

Por último, podemos calcular también el coeficiente de aversión relativa 
al riesgo (RRA, relative risk aversión ): 


r r (x) = xr a (x) = 


-U"(x)x 

U\x) 


Mientras r a mide la actitud hacia el riesgo con respecto a ganancias o pér¬ 
didas absolutas, r r mide dicha actitud con respecto a ganancias o pérdidas re¬ 
lativas. Este coeficiente, por ejemplo, desempeña un papel crucial en el mode¬ 
lo de Breen y Goldthorpe (1997) que intenta explicar las diferencias de clase 
social en los niveles de educación alcanzados mediante teoría de la utilidad. 
Así, los autores demuestran cómo, teniendo idénticos coeficientes de aversión 
relativa al riesgo, las familias de las clases altas tienen mayor probabilidad de 
continuar con los estudios que las familias de clases bajas debido a que las 
clases bajas se juegan más en las decisiones educativas que las clases altas. 


La paradoja de Aliáis 

A pesar de que la teoría de la utilidad parece basarse en premisas ciertas, 
poco discutibles en cualquier caso, y de que la teoría sea en cierto modo una 
lógica de la elección, igual que la lógica inferencial es una lógica de la argu¬ 
mentación, lo cierto es que numerosos experimentos realizados desde me¬ 
diados del siglo xx demuestran que las personas se desvían sistemáticamente 
de lo que cabe esperar según la teoría de la utilidad. Los agentes no siempre 
siguen un curso de acción lógico. A la vista de estos resultados, se han inten¬ 
tado diversas reformas de la teoría de la utilidad que aproximen algo los re¬ 
sultados teóricos a los resultados empíricos. Una visión panorámica de estos 
esfuerzos puede encontrarse en Kahneman y Tversky (2000). 

Aunque aquí no se consideran teorías heterodoxas de la elección, se ana¬ 
liza una de las paradojas o resultados chocantes que han contribuido a su 
desarrollo, la paradoja de Aliáis (sigo la presentación de Binmore 1992: 
115-117). Un agente ha de elegir entre dos cursos de acción, L o M. Hay tres 
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posibles estados del mundo, S, T y £7. El agente no sabe cuál es el estado del 
mundo verdadero, pero conoce sus probabilidades de ocurrencia: p(S) = 0,01, 
p(T) - 0,1 y p(U) = 0,89. Los resultados de las acciones dependen de qué es¬ 
tado del mundo finalmente se dé. Una vez el agente ha elegido entre L y Ai, 
se le da a elegir entre otras dos alternativas, que llamaremos ahora L'y M\ va¬ 
riando los pagos pero con las mismas creencias sobre los estados del mundo. 


CUADRO 1.3 

LA PARADOJA DE ALLAIS 



s 

T 

u 


p(S) = 0,01 

P(T) = 0,1 

p(U) = 0,89 

L 

500.000C 

500.000C 

500.000€ 

M 

0€ 

2.500.000C 

500.000C 

U 

500.000C 

500.000C 

0€ 

Mí 

0€ 

2.500.000C 

0€ 


En el cuadro 1.3 tenemos un resumen de la situación. Mientras hacer L 
tiene un resultado seguro, 500.000C, hacer M puede dejarnos sin nada con 
probabilidad 0,01, hacernos ganar dos millones y medio de euros con pro¬ 
babilidad 0,1, o hacernos ganar medio millón de euros con probabilidad 
0,89. En cuanto al segundo problema, hay que elegir ahora entre las lote¬ 
rías L' y M'. Si el agente elige L' frente a M', se lleva 500.000C con una 
probabilidad de 0,11 o 0€ con una probabilidad de 0,89. Si elige M' frente 
a L', se lleva 2.500.000C con una probabilidad de 0,1 o 0€ con una proba¬ 
bilidad de 0,9. 

Al elegir entre L y Ai por un lado y entre V y M f por otro, muchas perso¬ 
nas eligen en el primer caso L y en el segundo M\ Sin embargo, es fácil de¬ 
mostrar que esas elecciones son incoherentes. 

Podemos entender que L, M, V y M' son loterías. Puesto que la mejor 
consecuencia es 2.500.000€ y la peor 0€, cabe definir las utilidades así: 

£7(2.500.000) = 1 
£7(500.000) = z 0<z<l 
£7(0) = 0 

Por el momento da igual el valor de z, siempre y cuando sea el mismo en 
ambos problemas de decisión. La utilidad esperada de las dos primeras lote¬ 
rías, L y M, es: 
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UE(L ) = 0,01*2 + 0,1*2 + 0,89*2 = 2 
UE(M) = 0,01*0 + 0,1*1 + 0,89*2 = 0,1 + 0,892 


Si el agente elige L frente a Ai, entonces es que UE(L) > UE(M), es decir: 

2 > 0,1 + 0,892 
Si despejamos con respecto a 2 , nos queda: 

z > 

0,11 

Veamos ahora si este resultado es coherente con la elección de Ai' frente 
a V: 

UE(LÍ) = 0,01*2 + 0,1*2 + 0,89*0 = 0,1 12 
UE(M') = 0,01*0 + 0,1*1 + 0,89*0 = 0,1 

Si el agente elige Ai’, es porque UE(M 9 )>UE(L 9 ), es decir: 

0,1 > 0,1 12 

Despejando de nuevo con respecto a 2 , obtenemos: 



Pero este resultado contradice el anterior. Por tanto, si en el primer caso 
elige L frente a Ai y en el segundo Ai' frente a L', está violando alguno de los 
supuestos básicos de la teoría de la utilidad: su comportamiento es irracio¬ 
nal. Lo más desconcertante es que haya un porcentaje importante de gente 
en los experimentos de laboratorio que llevan a cabo este tipo de comporta¬ 
miento incoherente. La sugerencia principal para entender lo que está suce¬ 
diendo es que las personas no valoran por igual el riesgo de ganar algo y el 
riesgo de perderlo, aunque en los términos estrictos de la teoría dichos ries¬ 
gos sean estrictamente equivalentes. Cuando en la elección entre L y Ai el 
agente elige L, suele ser porque da mucha importancia a una probabilidad 
pequeña de quedarse sin nada si elige M. En cambio, cuando elige M' entre 
L' y Ai', el agente se deja guiar en mayor medida no por el riesgo de perder, 
sino por la probabilidad de ganar dos millones y medio de euros. Esta varia¬ 
ción psicológica en la forma de calibrar pérdidas y ganancias va más allá de 
las consideraciones que la teoría estándar de la utilidad contempla. 
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Si no se profundiza más en este tipo de desviaciones empíricas con res¬ 
pecto a la teoría es porque la teoría de juegos incorpora la teoría de la utili¬ 
dad estándar, sin dar demasiada importancia a anomalías como las de la 
paradoja de Aliáis. 


Aplicación: La moderación de los partidos 

A continuación se muestra un modelo formal paramétrico en el que sólo in¬ 
tervienen cálculos de utilidad. El problema que investiga es el siguiente: 
¿bajo qué condiciones un partido que está en la oposición trata de acercarse 
al votante mediano para ganar las elecciones? El análisis de este problema 
permite poner en práctica lo aprendido hasta el momento y conocer un tipo 
de función de utilidad frecuente en la ciencia política y la teoría económica, 
las funciones euclídeas o espaciales. 

Supongamos que los votantes se ordenan en un eje o dimensión espacial 
izquierda-derecha. Estos votantes votan al partido que esté ideológicamente 
más próximo a sus preferencias. Podemos decir que la utilidad que recibe un 
votante de que un partido u otro gobierne es una función decreciente de la 
distancia entre el votante y los partidos: cuanto más lejano esté el votante del 
partido que gobierna, menos utilidad recibe. La naturaleza espacial de esta 
relación permite introducir una función de utilidad en la que si x es la posi¬ 
ción ideológica de un partido y x* la posición ideológica ideal de un votante, 
entonces la utilidad es: 


U(x) = -(x-x*) 2 

Cuando x = x*, la función alcanza su máximo, tiene el valor 0. Conforme 
se agranda la distancia entre x* y x, la utilidad va disminuyendo: de ahí que 
la función tenga signo negativo. La diferencia entre x* y x la elevamos al cua¬ 
drado porque no nos interesa si la desviación se produce por la derecha o 
por la izquierda. Nótese que al ser una función cuadrática, estamos supo¬ 
niendo que el votante es averso al riesgo. 

En el caso más sencillo posible, el de un sistema bipartidista, si un parti¬ 
do gana es porque recibe más del 50% de los votos. Esto se puede expresar 
técnicamente: si llamamos votante mediano al votante que divide la distribu¬ 
ción del electorado en dos partes de igual tamaño, dejando un 50% del elec¬ 
torado a cada lado, entonces un partido gana las elecciones cuando está más 
próximo al votante mediano que el partido rival. En el cuadro 1.4 se presen¬ 
ta un ejemplo. Sean x* x* y je* los puntos ideales de un partido de izquier¬ 
das, uno de derechas y el votante mediano, respectivamente. Es evidente que 
el partido D está más cerca del votante mediano Ai que el partido I. Por tanto, 
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D tiene la seguridad de que le va a votar la mitad a la derecha de M, que ya 
es el 50%, más algunos votantes a la izquierda de M que están más próximos 
a D que a I. Por tanto, D se asegura una cómoda victoria. Esto es una conse¬ 
cuencia directa de lo que se conoce como el teorema del votante mediano, en 
virtud del cual la opción ganadora en una votación entre dos opciones es la 
que esté más próxima a la primera preferencia o punto ideal del votante me¬ 
diano. 


CUADRO 1.4 

POSICIONES ESPACIALES DE LOS PARTIDOS Y DEL VOTANTE MEDIANO 



x^ = punto ideal de I, el partido de izquierdas. 

)C M = punto ideal del votante mediano. 

x^ = punto ideal de D, el partido de derechas. 


La cuestión es: ¿le interesará a I, para ganar las próximas elecciones, des¬ 
plazarse hacia el centro, situándose más próximo a M que D, suponiendo 
que D no se desplace por su parte? Para poder responder a esa cuestión, hay 
que conocer la función de utilidad de los partidos. Según Downs (1957), a 
los políticos sólo les interesa ganar elecciones, son meros maximizadores de 
votos. Para ellos, las políticas que se hacen desde el gobierno son un instru¬ 
mento para ganar las elecciones, y no al revés. Si esto es cierto, la respuesta 
a la pregunta anterior es inmediata: a I siempre le interesa moverse hacia el 
votante mediano. De hecho, Downs consideró que en un sistema bipartidista 
los partidos deberían situarse en la misma posición, la del votante mediano, 
consiguiendo cada uno la mitad de los votos. El empate resultante habría 
que resolverlo lanzando una moneda al aire. 

El modelo de Downs es poco realista. No es ya sólo que los partidos ten¬ 
gan posiciones distintas: es que además a veces el partido en la oposición 
permanece largo tiempo fuera del poder a causa de su resistencia a moderar¬ 
se y desplazarse hacia el votante mediano. Así ocurrió por ejemplo con el 
partido laborista británico entre 1979 y 1997, o con la socialdemocracia ale¬ 
mana entre 1949 y 1959. Para dar cuenta de este fenómeno, se presenta una 
función de utilidad compleja donde los partidos no son maximizadores de 
votos (Sánchez-Cuenca 2004). Un partido valora dos cosas: por un lado, las 
políticas que esté haciendo el gobierno; por otro, el programa ideológico con 
el que se presentan en la sociedad. El partido tiene en cuenta tanto las políti¬ 
cas que se realizan desde el Gobierno como los principios ideológicos con 
los que se presenta ante la sociedad. Bajo ciertas condiciones, puede haber 
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un problema de compatibilidad entre estos dos objetivos. Puede suceder que 
al partido le preocupe que las políticas que haga el Gobierno no sean sus 
preferidas, pero no esté dispuesto a sacrificar sus principios ideológicos sin 
más por llegar al poder y hacer unas políticas que sean algo mejores que las 
que hacía el Gobierno anterior pero que están muy alejadas de su posición 
ideológica ideal. Para poder representar este trade~off o intercambio entre 
políticas y fidelidad a unos principios ideológicos, se introduce un coeficien¬ 
te de rigidez ideológica, w, tal que 0 < w < 1, que mide la importancia que se 
da a los principios ideológicos. Cuanto más alto w, más importancia tienen 
los principios ideológicos y menos la valoración de las políticas que hace el 
gobierno. Si w = 0, al partido sólo le interesan las políticas, no tiene rigidez 
ideológica; si w = 1, el partido es rígido y sólo le importa mantenerse fiel a 
sus principios. 

Por simplicidad, suponemos que el partido que está en el gobierno es D y 
que D es inmóvil en el corto plazo, es decir, que el partido del gobierno no se 
desplaza en su posición ideológica. La pregunta es si / se desplazará. Nótese 
que /, si se desplaza, lo hace hasta una posición ganadora que exija el menor 
sacrificio ideológico posible. Como puede verse en el cuadro 1.4, lo lógico es 
que I se mueva hasta la posición 2jc* - x*, pues ahí se sitúa a igual distancia 
del votante mediano que D. Se supone también que en caso de igual distan¬ 
cia, M prefiere votar a un partido nuevo como / que a un partido que lleva 
tiempo en el gobierno como D. Lo que tenemos que comprobar es si para I 
la utilidad de no moderarse es mayor o no que la utilidad de moderarse has¬ 
ta el punto 2x* m - x*. La utilidad de no moderarse, es decir, de mantenerse en 
su punto ideal, es ésta: 

Ufe* x* D ) = -(w 1 (x*-x*) 2 + (1 -WjXx^-x*) 2 ) = -(l -Wj)(x* D -**) 2 

La función de utilidad de 1 tiene dos argumentos, por un lado la fidelidad 
a los principios (la distancia entre lo que el partido anuncia en la campaña 
electoral y su posición ideal) y el valor de las políticas (la distancia entre las 
políticas que hace el Gobierno y las políticas que le gustaría hacer a / en su 
posición ideal). El primer argumento es x*, puesto que 1 no se modera; el se¬ 
gundo es x *, puesto que la política la hace D en su punto ideal. En cuestión 
de principios ideológicos, la función está en su máximo, ya que esa parte de 
la función vale 0; pero en cuestión de políticas, hay una utilidad negativa 
como consecuencia de la distancia entre x * y x * 

La otra opción es moderarse hasta el punto 2x* - x*, ganar las elecciones 
y hacer unas políticas congruentes con esa posición pero sacrificando parte 
de sus principios ideológicos. Ahora las políticas son más aceptables, aunque 
a costa de haber renunciado a parte de los principios. La utilidad de esta se¬ 
gunda opción es: 
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u¡(2X* M - X*, 2x* m - x*) = ~(w/(2x* -x*)-x*) 2 + (1 - w f )((2x* ~ x*) - x*) 2 ) = 

= -« 2 x* m -x* d )-x*) 2 

El partido se moderará cuando la segunda utilidad sea mayor que la pri¬ 
mera. Despejando con respecto al coeficiente de rigidez ideológica de I , w p 
la expresión resultante es: 


. w * 

c x* D y 


Siempre que la rigidez ideológica de I sea menor que la cantidad crítica 
w* el partido se modera. Cuando esto no se cumple, al partido no le com¬ 
pensa moderarse. Lo interesante de esta expresión es que ahora podemos ha¬ 
cer “estática comparativa”, es decir, podemos ver cómo afecta a la probabili¬ 
dad de moderación cambios pequeños en cada uno de los parámetros del 
modelo. Esto permite formular hipótesis que luego puedan ser contrastadas 
empíricamente. Concretamente, de la expresión anterior se siguen varios re¬ 
sultados 2 : 1) cuanta mayor rigidez ideológica, menos probable es la modera¬ 
ción, 2) cuanto mayor sea la distancia entre el partido que se plantea la mo¬ 
deración y el votante mediano, menos probable es la moderación, y 
3) cuanto mayor sea la distancia entre los dos partidos, más probable es la 
moderación. 


2 El lector interesado en entender la estática comparativa del modelo, puede consultar 
Sánchez-Cuenca (2004). 



2 

Juegos en forma normal o estratégica 


Caracterización de un juego en forma normal 

Comenzamos el recorrido por la teoría de juegos examinando la situación 
estratégica más simple posible, aquella en la que no se especifica la secuen¬ 
cia u orden de jugadas de los jugadores. Se supone que los jugadores hacen 
sus jugadas simultáneamente o, si se prefiere, que cada jugador hace sus 
elecciones sin conocimiento de las elecciones realizadas por los otros juga¬ 
dores, Estos juegos habitualmente se pueden representar mediante una ma¬ 
triz de pagos y reciben el nombre de juegos en forma normal o juegos en for¬ 
ma estratégica. En el próximo capítulo se analizan los juegos en forma 
extensiva, en los cuales se detalla la secuencia temporal de jugadas. En un 
juego en forma normal tenemos varios jugadores o agentes cuyas acciones 
están interconectadas, en el sentido de que lo que cada uno haga depende de 
las expectativas que tenga sobre lo que van a hacer los demás, y cada uno ac¬ 
túa sin saber que han hecho los demás. 

Podemos caracterizar formalmente un juego en forma normal a partir de 
los siguientes tres elementos (Morrow 1994: 69): 

• Un conjunto de jugadores i E /, I = (1, 2,/}. 

• Un conjunto de estrategias S. para cada jugador i. 

• Funciones de utilidad (o funciones de pagos) Von Neumann-Morgens- 
tem U.(S) para cada combinación S = (S v ..., S { ) de estrategias. 

Aunque nada impide que haya más de dos jugadores, en adelante nos 
limitamos al caso más simple de juegos de dos jugadores (por tanto, / = 2), lo 
que reduce los cálculos y razonamientos. 

Una estrategia se define técnicamente como un plan completo de acción 
que especifica cómo comportarse durante el juego. En un juego en forma 
normal, puesto que las elecciones son en la práctica simultáneas, una estra¬ 
tegia coincide con el curso de acción que adopta el jugador. Como se verá en 
el siguiente capítulo, el concepto de estrategia es algo más rico cuando se 
aplica en juegos en forma extensiva. 
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En el cuadro 2.1 se observa un juego de dos jugadores (los jugadores J1 y 
J2) representado mediante una matriz de tres filas y tres columnas. Cada fila 
representa una de las tres posibles estrategias de J1 ( U , M o D) y lo mismo 
sucede con las columnas con respecto a J2 (/, m o r). Cada jugador tiene por 
tanto tres estrategias distintas y ha de elegir una de ellas sin saber qué ha 
elegido el otro. Vamos a seguir la convención de representar las estrategias 
de J1 con letras mayúsculas y las estrategias de J2 con minúsculas. 

CUADRO 2.1 

JUEGO EN FORMA NORMAL 


J2 



1 

m 

r 

u 

4, 3 

5, 1 

6, 2 

Jl M 

2, 1 

8, 4 

3, 6 

D 

3, 0 

9, 6 

3, 8 


Los números que aparecen en el interior de las celdas son los pagos de 
los jugadores, medidos en utilidad Yon Neumann-Morgenstern. El primer 
número en cada celda es el pago que recibe el jugador en filas, Jl, y el segun¬ 
do es el pago que recibe el jugador en columnas, J2. Los pagos son por tanto 
las consecuencias medidas en utilidad de las distintas combinaciones posi¬ 
bles de estrategias. Así, podríamos describir los pagos como se ilustra en es¬ 
tos ejemplos: 


U n (M, m) = 8 
U J2 (M, m) - 4 
etc. 

A pesar de que en la definición anterior se establece que los pagos del jue¬ 
go se miden como utilidades Von Neumann-Morgenstern, y por consiguiente 
como utilidades cardinales, en ciertos contextos simples los pagos pueden 
ser interpretados ordinalmente, reflejando tan sólo el orden de preferencia 
sobre las distintas combinaciones de estrategias posibles. Sin embargo, es 
conveniente ceñirse al supuesto de cardinalidad, pues sólo así cabe calcular 
estrategias mixtas en el juego, según se explica más adelante. 
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Criterios de dominación 

Hay algunos juegos en los que la configuración de pagos es de tal naturaleza 
que la propia condición estratégica del juego prácticamente se disuelve. Antes 
se ha visto que la característica de los juegos es que representan situaciones 
estratégicas, es decir, situaciones en las que la acción de cada uno depende de 
las expectativas que tenga sobre lo que los demás van a hacer. Pero excepcio¬ 
nalmente dicha dependencia puede neutralizarse, de forma que un jugador 
tenga buenas razones para elegir una estrategia frente a otra al margen de lo 
que vaya a hacer el otro jugador. Aunque formalmente nos encontremos en 
un contexto estratégico, pues las consecuencias de mis acciones dependen de 
lo que los demás hagan, en realidad la elección del jugador es paramétrica, 
pues el jugador elige sin tener en consideración qué estrategia va a elegir su 
contrincante. Esto sólo es posible cuando al elegir una cierta estrategia siem¬ 
pre estoy mejor jugando esa estrategia que si elijo otra, independientemente 
de la estrategia que elija el otro jugador. Cuando el juego se puede jugar, di¬ 
gámoslo así, "paramétricamente'', su resolución es más bien trivial. 

Sea el juego del cuadro 2,2, J1 puede realizar el siguiente razonamiento: haga 
lo que haga J2, siempre estoy mejor eligiendo la estrategia D que la estrategia V. 
Si J2 elige /, entonces, si yo hago U, obtengo -1, pero si hago D obtengo 0; si J2 
elige r, entonces, si hago U, obtengo 2, mientras que si hago D obtengo 3. Puesto 
que 0 es mejor que -1 y 3 es mejor que 2, haga lo que haga J2 me compensa 
siempre elegir D. Por tanto, decimos que para J1 la estrategia D domina a la es¬ 
trategia [/. Jl, a la hora de elegir su estrategia, no tiene en cuenta qué pueda ha¬ 
cer J2, puesto que haga lo que haga J2, Jl está mejor con D que con U . En cam¬ 
bio, J2 no tiene ninguna estrategia dominante: / le proporciona un pago más alto 
que r si Jl elige U, pero si Jl elige D , entonces r produce un pago mejor que /. 


CUADRO 2.2 

EJEMPLO DE JUEGO CON DOMINACIÓN 
J2 


/ r 


U 

Jl 

D 


-1, 3 

2, 1 

0, 2 

3, 4 


En este juego, aunque J2 no tiene una estrategia incondicionalmente mejor, 
sabe, por medio del análisis del juego, que Jl siempre va a elegir D habida cuenta 
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de que D domina a U. Por tanto, está seguro que J1 va a elegir D si supone que 
J1 es racional. Sabiendo esto, la elección de J2 también se vuelve ‘paramétrica”, 
en el sentido de que se limita a elegir entre los pagos de 2 (si hace /) y 4 (si hace r). 
Como 4 es mejor que 2, elegirá r. J1 jugará D, 32 jugará r, y los pagos para cada 
uno serán 3 y 4 respectivamente. Hemos podido resolver el juego gracias a que 
la elección de cada jugador era en última instancia paramétrica. Si los jugado¬ 
res son racionales, la predicción es que jugarán las estrategias (D, r). 

Ahora podemos definir con un poco más de precisión qué quiere decir 
que una estrategia domine a otra. Hay que distinguir dos tipos de domina¬ 
ción, fuerte y débil. Comenzamos por la definición de la dominación fuerte 
tomando como referencia en la notación a Jl, aunque esto, obviamente, es 
irrelevante. Una estrategia S ; domina fuertemente a otra S 2 si y sólo si 

U n (S v Sj)>U n (S r s } ) f Vs ; . 

Dada cualquier estrategia de J2, S ; domina fuertemente a S 2 si S ; siempre 
produce más utilidad que S 2 . En el juego del cuadro 2.2, D domina fuerte¬ 
mente a U porque: 

U n (D, l) > U n {U t l) y U n (D, r) > U n (U } r) 

La definición de dominación débil es algo menos exigente. Una estrategia 
S } domina débilmente a otra S 2 si y sólo si: 

U n {S v s)>U n (S 2 ,s), Vs, 

y 

U n (S v 5 .) > U n (S 2 , s¡) para al menos una s. 

S I domina débilmente a S 2 si en todos los casos proporciona al menos 
tanta utilidad como S 2 y en al menos un caso S ; proporciona más utilidad que 
S r De otra forma, una estrategia domina débilmente a otra si ambas propor¬ 
cionan la misma utilidad dadas las estrategias del otro jugador pero al menos 
para una estrategia del otro jugador sucede que la primera estrategia es estric¬ 
tamente mejor que la segunda. En el juego del cuadro 2.1, puede comprobarse 
que D domina débilmente a M, pues cuando J2 juega r, D y M proporcionan 
exactamente la misma utilidad, pero cuando J2 juega l o m, D es mejor que Ai. 

Cuando en un juego nos encontramos con estrategias dominadas, ya 
sea fuerte o débilmente, podemos eliminarlas, puesto que un jugador ra¬ 
cional nunca tendrá buenas razones para elegir estrategias dominadas. A 
veces podemos llegar a una solución única del juego mediante este proce¬ 
dimiento de eliminación sucesiva de estrategias dominadas. Vamos a ver 
cómo funciona este procedimiento en el caso del juego del cuadro 2.1. Es 
fácil darse cuenta de que r domina fuertemente a m. Por tanto, podemos 
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eliminar m y observar qué sucede en el juego resultante, que se representa 
en el cuadro 2.3. 


CUADRO 2.3 

EL JUEGO DEL CUADRO 2.1 TRAS HABER ELIMINADO m 

J2 


I r 


U 


J1 M 


D 


4,3 

6 , 2 

2 , 1 

3, 6 

3, 0 

3, 8 


Una vez eliminado m, es evidente que ahora la estrategia U domina fuerte¬ 
mente a la estrategia M. Por tanto, eliminamos Ai, con la seguridad de que si J1 
es racional, nunca juega M. El juego así modificado aparece en el cuadro 2.4. 


CUADRO 2.4 

EL JUEGO DEL CUADRO 2.1 TRAS HABER ELIMINADO m Y M 

J 2 


/ r 


U 

D 


4, 3 

6 , 2 

3, 0 

3, 8 


En este juego reducido, todavía es posible ir más lejos. Ahora cabe eliminar 
D, ya que U domina fuertemente a D. El resultado aparece en el cuadro 2.5. 


CUADRO 2.5 

EL JUEGO DEL CUADRO 2.1 TRAS HABER ELIMINADO m, M Y D 

J2 


/ r 


4, 3 


6,2 


J1 U 
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Llegados a este punto, la resolución del juego es trivial: dadas las dos es¬ 
trategias de J2, salta a la vista inmediatamente que l domina fuertemente a r, 
por lo que el resultado final o solución del juego es la combinación de estra¬ 
tegias ( U , /), con pagos de 4 para J1 y 3 para J2. 

Cuando en un juego hay varias estrategias dominadas, se llega al mismo 
resultado final independientemente de por dónde comencemos el proceso de 
eliminación. A este proceso de búsqueda por eliminación de estrategias do¬ 
minadas de la solución del juego se le llama “dominación repetida” (iterated 
domination). Se trata de un proceso mecánico, que funciona únicamente 
porque el juego, cuando hay estrategias dominadas, puede llegar a perder su 
condición estratégica y transformarse en un problema de elección paramé¬ 
trica. No todos los juegos se pueden resolver así. 

A pesar de que este proceso de “dominación repetida” pueda parecer 
completamente lógico, los expertos en teoría de juegos han ideado ejemplos 
en los que este método da lugar a resultados dudosos. Veamos uno de esos 
ejemplos. Sea el juego del cuadro 2.6. 

CUADRO 2.6 

UN JUEGO DONDE EL CRITERIO DE DOMINACIÓN RESULTA DUDOSO 

J2 


/ r 


U 

J1 

D 


-1 

8, 10 

-100, 9 

7, 6 

6, 5 


En principio, uno puede considerar que la manera en que se jugará este 
juego es ésta: la columna / domina fuertemente a la columna r; Jl, sabiendo 
esto, ha de elegir entre V , que le proporciona 8 si J2 juega /, y D, que le pro¬ 
porciona 7 si J2 juega l. Evidentemente, U domina fuertemente a D , luego Jl 
juega U. La solución del juego por dominación repetida es (Í7, /), con pagos 
(8, 10). Ahora bien, esta forma de analizar el juego presupone que Jl está 
completamente seguro de la racionalidad de J2, de modo que J2 nunca va a 
elegir r frente a L Justo porque hay esta certeza, el juego se puede resolver 
mecánicamente, mediante dominación repetida. La decisión de Jl es como 
una decisión paramétrica, es decir, Jl considera que la estrategia de J2 no es 
más que un parámetro del ambiente. Sin embargo, este planteamiento no 
es del todo realista, pues nunca estamos seguros del todo de la racionalidad 
de las personas, siempre albergamos alguna pequeña duda de que el rival no 
sea racional. En ese caso, si Jl elige U, corre un riesgo de acabar con -100 si 
J2 no actúa racionalmente, mientras que si juega D o bien saca 7 o bien saca 6. 
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De ahí que no todo el mundo esté de acuerdo con que la solución obvia del 
juego sea ([/, /). Supongamos que la creencia de J1 acerca de J2 es que hay 
una probabilidad del 98% de que J2 sea racional, y una del 2% de que sea 
irracional (podemos considerar que la racionalidad de J2 es un estado del 
mundo). Si J2 es racional, siempre juega /, mientras que si es irracional, 
siempre juega r. Desde el punto de vista de la utilidad esperada, J1 estaría en 
tal caso mejor eligiendo D que U : 

UE n (U) = 0,98*8 + 0,02*(-100) = 5,84 
UE n (D) = 0,98*7 + 0,02*6 - 6,98 

Con un margen tan pequeño de incertidumbre, deja de ser cierto en este 
juego que U sea la mejor estrategia posible para Jl. La solución basada en la 
dominación repetida tiene sentido cuando la incertidumbre desaparece com¬ 
pletamente. Pero el supuesto de seguridad absoluta no es demasiado realista, 
a no ser que J2 sea un ordenador programado para maximizar utilidad. En 
la medida en que nuestra concepción de las personas sea algo más compleja 
que un ordenador que maximiza utilidad, la solución por dominación repeti¬ 
da no es en todos los juegos la forma más razonable de jugarlos. 


Equilibrio de Nash 

Más allá de las limitaciones que se acaban de señalar acerca del procedimien¬ 
to de dominación repetida, este procedimiento es en todo caso de aplicación 
restringida, ya que en muchos juegos no hay dominación (fuerte o débil) de 
estrategias. Cuando así ocurre, ¿cómo se juega el juego? ¿Qué cuenta como 
una solución razonable? La respuesta a .estas cuestiones se debe al matemáti¬ 
co John Nash (1996), quien en 1951 publicó un artículo fundamental en el 
que generaliza la idea de equilibrio que habían propuesto los fundadores de 
la teoría de juegos, Von Neumann y Morgenstem, para un ámbito muy con¬ 
creto, los juegos de suma cero. Aquí no se explica nada sobre los juegos de 
suma cero, puesto que rara vez se encuentran en la realidad situaciones en las 
que las ganancias de un jugador sean exactamente las pérdidas del otro, y vi¬ 
ceversa. Nash define su noción de equilibrio a partir de la idea de “respuesta 
óptima” o “mejor respuesta posible” (best reply). Una respuesta óptima se de¬ 
fine como aquella estrategia que proporciona resultados mejores que todas 
las demás estrategias posibles frente a una estrategia dada del rival. Si repre¬ 
sentamos mediante S el conjunto de estrategias de Jl sin incluir una estrate¬ 
gia concreta S ¿ , podemos decir que S. es una respuesta óptima cuando: 

í/ yl (S,5.)>f/ yl (5,5.) 
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S es la mejor respuesta posible de J1 a la estrategia s. de J2 cuando S. pro¬ 
porciona más utilidad a J1 que cualquier otra estrategia. 

Pues bien, un equilibrio de Nash se defíne como una combinación de es¬ 
trategias en la que cada estrategia es una respuesta óptima a la otra. Dado 
que todos los jugadores utilizan sus respuestas óptimas, ninguno tiene razón 
alguna para cambiar de estrategia: si un jugador utiliza una estrategia que 
no sea una respuesta óptima, pierde utilidad. Puesto que los jugadores no 
tienen razones para cambiar de estrategia, dicha combinación de estrategias 
se dice que está en equilibrio, es decir, que es estable. Formalmente, un par 
de estrategias (S., s) es un equilibrio de Nash cuando se cumple la doble 
condición de que S. sea la respuesta óptima a s. y de que s. sea la respuesta 
óptima a S f : 


Uji(Sí> s ¡) — U n (S, S') 

U n (S p s,) > U J2 (S r s ) 

Al analizar un juego en forma normal, buscamos todas las combinaciones 
de estrategias que constituyan equilibrios de Nash. Hay juegos con un único 
equilibrio de Nash, con equilibrios múltiples de Nash, y sin equilibrio de 
Nash (aunque, como se explica en la próxima sección, siempre hay al menos 
un equilibrio de Nash con estrategias mixtas). Veamos un par de ejemplos. 

En el juego del cuadro 2.7 J1 tiene tres estrategias y J2 dos. Esto da lugar 
a seis resultados posibles. ¿Cómo podemos determinar cuáles de esos resul¬ 
tados representan una combinación de estrategias que sea un equilibrio de 
Nash? Hay que comprobar si las estrategias son simultáneamente respuestas 
óptimas. Comencemos por el primer par, (S v s { ). ¿Es s } una respuesta ópti¬ 
ma a Sj? La respuesta es afirmativa, pues si J1 juega S { , J2 no puede mejorar 
cambiando de s { a s 2 , luego, según la anterior definición, se cumple la condi¬ 
ción de respuesta óptima. Sin embargo, S { no es la respuesta óptima a s } , ya 
que J1 puede estar mejor cambiando a S r Por tanto, (S^ s { ) no puede ser un 

CUADRO 2.7 

JUEGO EN FORMA NORMAL 


5 , 

J1 S 2 
s 3 


5 1 

1 , 1 
2,-1 
- 1,-2 


S 2 

1 , 1 

- 10 , -2 

0 , -1 


J2 
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equilibrio de Nash. Continuemos con el proceso de búsqueda del equilibrio. 
Consideremos ahora el par (S v s 2 ). De nuevo, se cumple que s 2 es la mejor 
respuesta a S y Pero ahora, además, es el caso que es la respuesta óptima a s r 
Por tanto, el par (S v s 2 ) sí que es un equilibrio de Nash. Nótese que lo rele¬ 
vante no son los pagos, pues los pagos son idénticos en estos dos primeros 
casos, sino que lo que importa es el criterio de respuesta óptima. 

El análisis no acaba aquí. Hay que seguir calculando respuestas óptimas 
hasta agotar todas las combinaciones de estrategias posibles. ¿Es (S 2 , s¡) un 
equilibrio de Nash? Por lo pronto, S 2 es la mejor respuesta posible a s v se¬ 
gún hemos visto antes. Y es a su vez la respuesta óptima a S 2 , pues aunque 
le dé utilidad negativa a J2, J2 está mejor jugando s } que 5 2 contra S r Hemos 
identificado por tanto un segundo equilibrio de Nash dentro de este juego. 
¿Es (S 2 , s 2 ) un equilibrio de Nash? Evidentemente no, pues acabamos de 
decir que la mejor respuesta de J2 a S 2 es s v no s r ¿Y (S 3 , s x )? Tampoco, ya 
que la respuesta óptima de J1 a s í es S 2 , no S r Por último, ¿es (S 3 , s 2 ) un 
equilibrio de Nash? No, porque sabemos por razonamientos anteriores que 
la respuesta óptima a s 2 es S l y no S y En suma, el juego del cuadro 2.7 tiene 
dos equilibrios de Nash, (S 1# s 2 ) y (S 2 , sj. 

Este mismo proceso de búsqueda se aplica a cualquier otro juego en for¬ 
ma normal, ya tenga uno, múltiples o ningún equilibrio de Nash. Es intere¬ 
sante el caso de juegos sin equilibrio de Nash, como el que aparece en el cua¬ 
dro 2.8. La respuesta óptima de J2 a Sj es s 2 , la respuesta óptima de J1 a s 2 es 
S 2 , la respuesta óptima de J2 a S 2 es s v la respuesta óptima de J1 a es S 1 
y... vuelta a empezar. No hay una combinación de estrategias que sean res¬ 
puestas óptimas a la vez. 

La ausencia de equilibrios de Nash se produce cuando no hay estrategias 
dominadas para ninguno de los dos jugadores. Es claro que la teoría de jue¬ 
gos no puede contentarse con constatar la ausencia de equilibrio, pues eso 
supondría reconocer que la teoría es incapaz de predecir cómo actuarán los 
agentes racionales en algunos juegos. La teoría de juegos tiene el compromi¬ 
so de determinar en todo juego posible qué cuenta como elección racional. 
Para poder resolver el problema de los juegos sin equilibrio, Nash demuestra 


CUADRO 2.8 

UN EJEMPLO SIN EQUILIBRIO DE NASH 


51 
J1 

5 2 


J2 


1,1 

0, 4 

-1, 3 

3, -5 
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que en realidad todo juego siempre tiene al menos un equilibrio de Nash si 
se admiten estrategias mixtas en el juego. En la próxima sección se explica 
qué es una estrategia mixta y cómo se puede interpretar. 


Equilibrio de Nash con estrategias mixtas 

La idea de estrategia mixta no es demasiado clara. Resulta más fácil aprender 
a manejar estrategias mixtas que entender realmente qué son éstas. Por eso, 
primero se va a exponer la parte técnica, sobre definiciones y operaciones, y 
el propio uso de las estrategias mixtas facilitará la tarea de explicar después 
su naturaleza y significado. Vamos a ver que el formalismo de las estrategias 
mixtas consiente interpretaciones sustantivas bastante diferentes entre sí. 

Una estrategia mixta es una distribución de probabilidad sobre el conjun¬ 
to de estrategias puras. Las estrategias puras son las estrategias contempla¬ 
das hasta el momento, es decir, estrategias que consisten en elegir un cierto 
curso de acción. Las estrategias mixtas incluyen cursos de acción diversos 
(varias estrategias puras), cada una con una probabilidad determinada. En 
cuanto una estrategia mixta es una combinación probabilística de estrate¬ 
gias puras, puede decirse que las estrategias mixtas expanden el conjunto de 
estrategias entre las que puede elegir el agente. Gracias a ese aumento del 
conjunto de estrategias posibles, se pueden encontrar equilibrios de Nash en 
todos los juegos, incluso en los que no tienen equilibrios al analizarlos úni¬ 
camente con estrategias puras. 

Comencemos por un juego muy simple, el juego de pares o nones. Cada 
jugador saca con una mano tantos dedos como quiera, de 1 a 5, y luego se 
suman. Un jugador gana cuando la suma de los dedos de los dos jugadores 
es par y el otro gana cuando dicha suma es impar. Supongamos que el juga¬ 
dor en filas gana si la suma de dedos es par y pierde si es impar, y al revés 
para el jugador en columnas. Saldrá un número par cuando los dos saquen 
cantidades pares o los dos saquen cantidades impares; y saldrá impar cuan¬ 
do uno saque pares y el otro nones. 

CUADRO 2.9 

EL JUEGO DE PARES Y NONES 


Pares 

J1 (pares) 

Nones 


*J2 (nones) 
Pares Nones 


1,-1 

- 1,1 

- 1,1 

1,-1 
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Este juego no tiene un equilibrio de Nash con estrategias puras, siendo és¬ 
tas o bien sacar un número par de dedos o bien sacar un número impar. Si J1 
espera que J2 vaya a sacar pares, J1 saca pares, pero en tal caso J2 prefiere sa¬ 
car nones, y así sucesivamente. Para salir del embrollo, podemos considerar 
qué sucede si ampliamos el abanico de estrategias con estrategias mixtas, es 
decir, que cada jugador elija una combinación de estrategias puras por la cual 
elige con cierta probabilidad sacar pares y con el resto de probabilidad sacar 
nones. Antes de entrar a examinar la cuestión de cómo se establecen esas pro¬ 
babilidades, vamos a ver cómo operan en la práctica. Supongamos que J1 jue¬ 
ga pares la mitad de las veces y nones la otra mitad o, si se prefiere, que J1 eli¬ 
ge pares con una probabilidad de 0,5 y nones con una probabilidad también 
de 0,5. En ese caso, ¿qué pagos puede esperar J2 con sus estrategias puras? 
¿Qué resultados sacará J2 jugando frente a la estrategia mixta de Jl? Si J2 jue¬ 
ga pares, los pagos esperados para J2 dada la estrategia mixta de J1 serán: 

UEjpares) = i- (-1) + j- (1) = 0 

Es decir, si Jl juega pares y J2 juega pares, el resultado será pares (-1 de 
utilidad para J2) y si Jl juega impares y J2 juega pares, el resultado será im¬ 
pares (1 de utilidad para J2). Pero J2 no sabe qué va a hacer realmente Jl, 
sólo sabe que va a jugar con probabilidad 1/2 cada estrategia. Por tanto, los 
resultados esperados hay que ponderarlos por las probabilidades correspon¬ 
dientes. La utilidad esperada es, como se ve en la fórmula, 0. Si J2 juega im¬ 
pares, los pagos esperados de J2 dada la estrategia mixta de Jl son: 

UE J2 (impares) = (1) + y- (-1) = 0 

De nuevo, la utilidad esperada es 0. Luego si Jl juega su estrategia mixta, 
entonces haga J2 lo que haga, J2 siempre saca 0. Pero si la elección de las es¬ 
trategias puras de J2 no introduce ningún cambio en el resultado final, eso 
significa que J2 es indiferente entre sus estrategias puras como consecuencia 
de la estrategia mixta de Jl. 

El propósito de las estrategias mixtas consiste precisamente en neutrali¬ 
zar la elección de estrategias puras del rival. El jugador que utiliza una estra¬ 
tegia mixta de equilibrio consigue que el rival sea indiferente entre sus 
estrategias puras. Ahora bien, si los dos jugadores hacen esto, es decir, si los 
dos jugadores juegan estrategias mixtas que neutralicen la elección de estra¬ 
tegias puras del rival, entonces ninguno de los dos jugadores tiene incentivo 
alguno para dejar de jugar su estrategia mixta y, por tanto, nos encontrare¬ 
mos en una situación de equilibrio de Nash, donde cada estrategia mixta es 
la respuesta óptima a la otra estrategia mixta. Este argumento merece un 
análisis algo más detallado. 
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En el ejemplo de pares y nones, el juego es simétrico. Por tanto, si la es¬ 
trategia mixta de equilibrio consiste para J1 en jugar pares con probabilidad 
1/2 y jugar nones con probabilidad 1/2, la estrategia mixta de J2 ha de ser 
idéntica (todavía no sabemos, sin embargo, cómo se llega a una estrategia 
mixta de equilibrio). Se puede demostrar que si J1 juega su estrategia mixta, 
cualquier estrategia (pura o mixta) de 32 es una respuesta óptima a la estra¬ 
tegia mixta de Jl. Ya hemos visto que cualquier estrategia pura de 32 le pro¬ 
porciona un pago esperado de 0. Tan sólo queda por confirmar que la estra¬ 
tegia mixta de 32 frente a la estrategia mixta de Jl también le da 0 a J2: 


/1 1 \ 
, — pares, — nones 

_ 1 


1 

+ - 


\ 2 2 ) 

” 2 

2 2 

2 

2 2 


= 0 


Las probabilidades de 1/2 que aparecen por delante de los corchetes se 
refieren a las probabilidades de que J2 elija pares o nones, mientras que las 
probabilidades de 1/2 que aparecen dentro de los corchetes corresponden a 
la estrategia mixta de Jl. En cualquier caso, el resultado vuelve a ser 0, lo 
cual demuestra que la estrategia mixta de J2 también es una respuesta ópti¬ 
ma de J2 a la estrategia mixta de Jl. Sabiendo que cualquier estrategia de J2 
es una respuesta óptima a la estrategia mixta de Jl, ¿es un equilibrio de 
Nash que Jl juegue su estrategia mixta y J2 elija como respuesta óptima la 
estrategia pura "pares"? La respuesta es negativa. Si Jl está seguro de que J2 
va a elegir pares, entonces Jl está mejor si él mismo elige pares que si juega 
su estrategia mixta. Luego la combinación de estrategias de ambos jugado¬ 
res ((l/2Pares, l/2Nones), pares) no es un equilibrio de Nash. Lo mismo cabe 
decir con respecto a ((l/2Pares, l/2Nones), nones): tampoco es un equilibrio 
de Nash, porque la mejor respuesta posible de Jl a nones no es su estrategia 
mixta, sino nones. En cambio, la combinación de estrategias ((l/2Pares, 
l/2Nones), (l/2pares, l/2nones)) sí que es un equilibrio de Nash, puesto que 
ninguno de los dos jugadores tiene incentivos para cambiar de estrategia. 
Nótese cierta circularidad en el argumento: J2 puede recurrir en equilibrio a 
una estrategia mixta porque Jl está, con su estrategia mixta, haciendo indi¬ 
ferente a J2 entre sus estrategias puras y, a su vez, Jl puede utilizar en equi¬ 
librio su estrategia mixta porque J2, con su estrategia mixta, está haciendo a 
Jl indiferente entre sus estrategias puras. Ante una estrategia mixta, cual¬ 
quier estrategia posible (pura o mixta) es una respuesta óptima. Pero una es¬ 
trategia mixta sólo es una respuesta óptima frente a otra estrategia mixta. 
Por tanto, el equilibrio de Nash con estrategias mixtas sólo se produce cuan¬ 
do los dos utilizan sus estrategias mixtas. 

Ya sabemos qué sucede cuando los agentes utilizan estrategias mixtas de 
equilibrio, pero no entendemos todavía cómo se calculan dichas estrategias 
mixtas. ¿Cómo los agentes racionales consiguen determinar la probabilidad 
correcta con la que mezclar sus estrategias puras? La respuesta está implícita 
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en lo que hemos visto hasta el momento: la probabilidad apropiada es aque¬ 
lla que hace indiferente al rival entre sus estrategias puras. Veámoslo a tra¬ 
vés de un ejemplo. 

Sea el juego del cuadro 2.8, que como se vio en su momento no tenía 
equilibrio de Nash con estrategias puras. J1 calcula las probabilidades de ju¬ 
gar Sj o S 2 tratando de hacer indiferente a J2 entre s í y s r Por tanto, para 
calcular su estrategia mixta, se basará en los pagos de J2. Sea p la probabili¬ 
dad de que J1 elija S x y p la probabilidad de que elija S 2 . J2 es indiferente 
entre sus estrategias cuando espera obtener la misma utilidad con cada una. 
Podemos igualar ambas utilidades forzando un valor único de p: 


UE n (s x )=p\ + (1 -p) 3 = UE J2 (s 2 ) = P 4 + (1 -p)(-5) 


Si despejamos p en la anterior ecuación, obtenemos/? = 8/11. Si J1 elige 
Sj con probabilidad 8/11 y S 2 con probabilidad 3/11, J2 es necesariamente in¬ 
diferente entre s 1 y s 2 . Por su parte, J2, jugando con los pagos de Jl, constru¬ 
ye una relación de indiferencia para Jl entre sus estrategias puras. Si q es la 
probabilidad de que J2 elija s } , entonces J2 hace indiferente a Jl cuando: 

UE n (S l )=ql + (1 -q )0 - UE n (S 2 )=q(-1 ) + (1 - q )3 

Despejando q en la ecuación, obtenemos q - 3/5. Si J2 elige s } con proba¬ 
bilidad q = 3/5, entonces Jl es indiferente entre sus estrategias mixtas. 

Ahora podemos unir las dos estrategias mixtas así calculadas y establecer 
el siguiente equilibrio de Nash: ((8/1ÍS^ 3/11S 2 ), (3/Ss^ 2/5 s 2 )). El equilibrio 
se produce porque cada estrategia mixta es la mejor respuesta posible a la 
otra. Es fácil darse cuenta de que si variamos una de las dos probabilidades, 
el equilibrio con estrategias mixtas se desmorona. Por ejemplo, si J2 jugase 
s 7 con probabilidad 4/5 en lugar de 2/5, la respuesta óptima a esta estrategia 
mixta de J2 no sería la estrategia mixta de Jl, sino que Jl elija S 1 como estra¬ 
tegia pura. Si Sj = 4/5, entonces los pagos esperados por Jl de sus estrategias 
puras y mixtas serían: 


C/£ J1 (S 1 ) = i-(l) + i-(o) = 0,8 


4 


1 


UE n (S 2 ) = ^r(- 1) + ~(3) = -0,2 


VE, 


S.,— S 2 = — 

1' h 2 / n 


n 1 n 


n 


T (1) + > 


11 


T h) + T (3) 


= 0,53 


La estrategia que mayor utilidad proporciona a Jl frente a la estrategia 
mixta de 32 es ,S' ; , luego dicha estrategia mixta no puede ser parte de un equi- 
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librio de Nash. El equilibrio de Nash con estrategias mixtas sólo se produce si 
cada estrategia mixta es la respuesta óptima a la otra estrategia mixta. 

Nash demostró que todo juego en forma normal tiene siempre al menos 
un equilibrio de Nash si se considera la posibilidad de estrategias mixtas. 
Este resultado tiene gran importancia, pues implica que la teoría de juegos 
puede determinar al menos una forma racional de resolver cualquier juego. 
No hay juegos que escapen al ámbito de la racionalidad. 

Los equilibrios con estrategias mixtas tienen ciertas peculiaridades inte¬ 
resantes. Como ha señalado George Tsebelis (1989), las probabilidades que 
intervienen en el cálculo de una estrategia mixta son de naturaleza diferente 
a las probabilidades que aparecen en una decisión paramétrica en un con¬ 
texto de incertidumbre. En una decisión paramétrica, la probabilidad de 
ocurrencia de los estados del mundo es exógena, está dada y no depende de lo 
que haga la persona. En un contexto estratégico, la probabilidad de que se 
recurra a una u otra estrategia es endógena, depende de la configuración 
de pagos en el juego. En un contexto paramétrico, los cambios en los pagos de 
utilidad asociados a las distintas elecciones posibles cambiarán la acción que 
cuenta como mejor elección posible, puesto que las probabilidades se man¬ 
tienen constantes. Pero en el contexto de las estrategias mixtas, un cambio 
en mis pagos no afecta a mi estrategia, sino que sólo afecta a las probabilida¬ 
des de la estrategia mixta de mi rival, puesto que mi estrategia mixta se 
calcula con relación a los pagos de mi rival, mientras que la estrategia mixta 
de mi rival se calcula con relación a mis propios pagos. Esto da lugar a algu¬ 
nas consecuencias curiosas. 

Sea un juego genérico entre dos actores colectivos, los conductores por 
un lado y la policía por el otro. Los conductores pueden decidir respetar 
las normas de tráfico o no respetarlas; la policía puede decidir vigilar o no 
vigilar a los conductores. Tsebelis presenta el juego según aparece en el 
cuadro 2.10: 


CUADRO 2.10 

EL JUEGO DE TSEBELIS ENTRE POLICÍAS Y CONDUCTORES 

Policía 

Vigilar No vigilar 

No respetar 
las normas 

Conductores 

Respetar 
las normas 


a v a 2 

b v b 2 

c v c 2 

d v d 2 


c,> a, y b,> d , 
a 2 > b 2 y d 2 > c 2 
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Dada la relación de pagos que aparece debajo del juego del cuadro 2.10, 
no hay un equilibrio de Nash con estrategias puras. Sin embargo, sí hay un 
equilibrio con estrategias mixtas. Los conductores, para calcular su estrate¬ 
gia mixta, utilizan los pagos de la policía; y la policía, para calcular su estra¬ 
tegia mixta, utiliza los pagos de los conductores. Pero de aquí se sigue que si, 
por ejemplo, se modifican los pagos de los conductores, lo que se altera no es 
el comportamiento de los conductores, sino el comportamiento de la policía, 
puesto que la estrategia mixta de la policía depende de los pagos de los con¬ 
ductores habida cuenta de que el objetivo de la policía es hacer indiferente a 
los conductores entre respetar o no respetar las normas. Por ejemplo, si el 
pago a ¡ se hace más pequeño, proporciona menos utilidad (si el coste de no 
respetar las normas aumenta, por ejemplo porque aumentan las multas), la 
consecuencia no es que los conductores respeten más las normas, sino que 
la policía vigile menos a los conductores. Lo curioso de las estrategias mixtas es 
que los cambios en los pagos de un jugador alteran no la estrategia del propio 
jugador, sino la estrategia del rival. Esto es consecuencia de que en el contexto 
estratégico las probabilidades sean endógenas y no exógenas. 

En principio, la idea de estrategia mixta parece suponer que los agentes 
toman decisiones mediante algún mecanismo aleatorio. Por ejemplo, si la es¬ 
trategia mixta es elegir una estrategia pura con probabilidad 1/2 y la otra 
con el restante 1/2, basta con echar una moneda al aire. Esto puede parecer 
poco realista, ya que casi nunca tomamos las decisiones probabilísticamen- 
te, sobre todo cuando lo que se ventila es algo importante. No obstante, hay 
algunos casos en los que la interpretación literal de la estrategia mixta sí que 
tiene sentido: como cuando el Ministerio de Hacienda realiza probabilística- 
mente inspecciones fiscales en el juego entre el Ministerio y los ciudadanos, 
o cuando se realizan controles aleatorios de sustancias prohibidas a los de¬ 
portistas. ¿Pero qué sucede cuando no hay lugar para un mecanismo real de 
aleatorización? ¿Significa eso que las estrategias mixtas no son más que un 
artificio matemático para garantizar la existencia de equilibrios de Nash en 
todos los juegos posibles? 

Aunque las interpretaciones posibles de la idea de estrategia mixta son 
complejas y corresponden a un curso avanzado de teoría de juegos (véase, 
por ejemplo, Osbome y Rubinstein 1994: 37-44), algo se puede apuntar en 
este estadio. Por ejemplo, desde una interpretación no racional, las probabi¬ 
lidades de una estrategia mixta pueden entenderse simplemente como las 
frecuencias con las que en el pasado se han elegido las estrategias puras. Así, 
las estrategias mixtas no serían más que regularidades estocásticas. Cuando 
la teoría de juegos se aplica en biología, a veces se considera que la estrate¬ 
gia mixta que utiliza una especie (el 30% de las veces los miembros de una 
especie eligen una estrategia pura, el 70% restante eligen la otra estrategia 
pura) responde a un caso de “polimorfismo” (Maynard Smith 1982: 16): un 
30% de los miembros de la especie tienen una característica que les hace ele¬ 
gir una estrategia pura, mientras que el 70% restante tiene otra característica 
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que les hace escoger la otra estrategia pura. En esas circunstancias, un ani¬ 
mal de otra especie sabe que al jugar con un miembro de esta especie se en¬ 
frenta a una estrategia mixta 0,3; 0,7. 

La interpretación más interesante no obliga a abandonar el supuesto de 
racionalidad, aunque exige considerar que no hay información completa en 
el juego. La idea consiste en que J1 no está del todo seguro acerca de la natu¬ 
raleza de los pagos de J2. Si los pagos de J2 tienen ciertas características, en¬ 
tonces J2 actúa de una forma; si tienen otras, actúa de otra forma. Por su¬ 
puesto, J2 conoce sus pagos y elige una estrategia pura. Pero para Jl, que no 
tiene toda la información necesaria sobre los auténticos pagos de J2, la elec¬ 
ción de una estrategia pura por parte de J2 se le presenta como una estrate¬ 
gia mixta, como una estrategia probabilística, pues con cierta probabilidad 
los pagos serán unos con su correspondiente estrategia pura, y con el resto 
de probabilidad los pagos serán otros y J2 elegirá otra estrategia pura. Aquí 
la idea de estrategia mixta se traduce a incertidumbre por parte de un juga¬ 
dor acerca de los verdaderos pagos de su rival. Del mismo modo, puede con¬ 
siderarse que la elección de una u otra estrategia pura depende de informa¬ 
ción privada relevante que sólo conoce el jugador, pero no su rival. Aunque 
el jugador juegue eligiendo estrategias puras, su rival, por carecer de esa in¬ 
formación privada, actuará como si se enfrentara a una estrategia mixta. 

Supongamos, con respecto al juego del cuadro 2.8 en el que se han calcu¬ 
lado las estrategias mixtas, que en realidad no hay información completa. Jl 
no está seguro de cuál de los dos juegos que aparecen en el cuadro 2.11 está 
jugando. En el primero, J2 tiene una estrategia pura dominante, elegir la 


CUADRO 2.11 

DESDOBLAMIENTO DEL JUEGO DEL CUADRO 2.8 

J2 


1, 5 

0, 4 

-1,3 

3,-5 

J2 

s i 

S 2 

1 , 1 

0,4 

-1, 3 

3, 5 


Jl 
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primera columna; en el segundo, la estrategia dominante es elegir la segunda 
columna. 

* Si la creencia de J1 de estar jugando el primer juego es de 3/5 y la de es¬ 
tar jugando el segundo de 2/5, entonces Jl, aunque sepa que J2 elige en cada 
caso una estrategia pura, en la práctica se está enfrentando a una estrategia 
mixta que le hace indiferente entre sus propias estrategias puras. No es nece¬ 
sario por tanto considerar que una estrategia mixta implica un mecanismo 
real de aleatorización: puede ser también un reflejo de una incertidumbre 
subyacente que no se refleje explícitamente en el juego. De esta forma se 
consigue una interpretación más plausible de estas estrategias. 


La interpretación del equilibrio de Nash 

Una vez visto que todo juego en formal normal tiene al menos un equilibrio 
de Nash si se admiten estrategias mixtas, conviene profundizar algo más en 
la idea de equilibrio de Nash. La noción de equilibrio de Nash no se basa 
en ninguna teoría sobre cómo los jugadores alcanzan el equilibrio. Lo único 
que se establece es que si los jugadores eligen estrategias que conjuntamente 
son las respuestas óptimas, entonces ninguno de los jugadores tiene incenti¬ 
vos para cambiar de estrategia. Pero no dice nada acerca de cómo los juga¬ 
dores llegan a seleccionar estrategias que son conjuntamente respuestas óp¬ 
timas las unas con respecto a las otras. 

En el artículo original de 1950 en el que Nash presenta su idea de equili¬ 
brio, no dice nada acerca de cómo se alcanza el equilibrio. Sin embargo, en 
la tesis doctoral que Nash había escrito antes y de donde sacó su artículo, sí 
incluyó algunas observaciones sobre la ocurrencia de equilibrios (véase Nash 
1996: 32-33). En concreto, propuso dos mecanismos distintos, uno que exige 
la racionalidad y otro que no. 

De acuerdo con el primero, el equilibrio de un juego coincide con la pre¬ 
dicción racional de cómo debería jugarse el juego. Los jugadores racionales 
son capaces de analizar la naturaleza del juego, establecer qué cuenta como 
solución racional y anticipar que, dada la racionalidad del rival, la mejor op¬ 
ción posible es jugar para conseguir el equilibrio de Nash. Esto requiere su¬ 
poner que los agentes son racionales, tienen toda la información relevante y 
son capaces de derivar la solución del juego incluso si no conocen el concep¬ 
to de equilibrio de Nash. Como dice el propio Nash, "se trata de una inter¬ 
pretación racionalista e idealizadora". 

De acuerdo con el segundo mecanismo, los jugadores no se caracterizan 
por su racionalidad: no hace falta siquiera suponer que los jugadores entien¬ 
den la estructura de incentivos del juego, o que hacen cálculos mentales so¬ 
bre cómo debe jugarse el juego. Los jugadores simplemente van acumulando 
experiencia sobre qué estrategias puras les proporcionan ventajas mayores. 
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Se trata por tanto de un proceso de ensayo y error, de aprendizaje paulatino 
acerca de las consecuencias de elegir una estrategia u otra. 

Mientras que el primer mecanismo, el racionalista, es compatible con el 
supuesto de que el juego en forma normal se juega una sola vez, el segundo 
mecanismo, el del aprendizaje, sólo tiene sentido si entendemos que el juego 
se juega una y otra vez, de forma que los resultados del pasado permiten que 
el aprendizaje o ajuste gradual tenga lugar. 

Aunque caben otras interpretaciones más detalladas del equilibrio de 
Nash (véase Kreps 1990c: 140-150), en última instancia se pueden recondu¬ 
cir a estos dos mecanismos, el del aprendizaje y el de la racionalidad. Ante 
múltiples experimentos de laboratorio que demuestran que las personas rara 
vez se ajustan a los supuestos racionalistas, la teoría de juegos, sobre todo en 
los últimos quince años, ha ido dando cada vez más importancia a los proce¬ 
sos de aprendizaje, en detrimento del supuesto clásico de racionalidad. No 
se van a examinar aquí los argumentos a favor y en contra de cada una de 
estas interpretaciones del equilibrio de Nash, pues eso nos llevaría a una dis¬ 
cusión metodológica demasiado larga. Cuando aparezcan a partir de ahora 
equilibrios de Nash, no se harán comentarios acerca de cómo deben enten¬ 
derse dichos equilibrios, aunque, en consonancia con lo explicado en el capí¬ 
tulo anterior, la interpretación natural en muchos casos sea la racionalista, 
es decir, la de que los agentes son capaces de entender la estructura del jue¬ 
go y anticipar la solución racional. 

Kreps plantea una duda general sobre la interpretación racionalista. A su 
juicio, los jugadores elegirán sus estrategias en consonancia con lo que se es¬ 
tablece en el equilibrio de Nash sólo cuando dicho equilibrio coincida con lo 
que los jugadores entienden que es la forma natural de jugar el juego. Según 
la interpretación racionalista, los agentes racionales llegan a entender que la 
forma natural de jugar el juego es la que desemboca en el equilibrio de Nash. 
Sin embargo, cabe dudar de esta suposición. Kreps (1990a: 397) propone un 
juego que plantea las mismas dudas con respecto al equilibrio de Nash que 
las que se planteaban en el juego del cuadro 2.6 con respecto al criterio de 
dominación. El juego aparece en el cuadro 2.12. 


CUADRO 2.12 

UN JUEGO DE KREPS QUE CUESTIONA EL EQUILIBRIO DE NASH 

J2 



w 

X 

y 

z 

u 

200, 6 

3, 5 

4,3 

0, -1.000 

D 

0, -10.000 

o 

o 

o 

1— 

1 

LO 

6, 3 

3, 20 
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El juego tiene dos equilibrios de Nash con estrategias puras (U, w) y 
(D, z). No obstante, Kreps sugiere que la elección “lógica” o “natural” para J2 
sería la estrategia y, que no forma parte de ninguno de los dos equilibrios. 
J2 elegiría y porque es la única estrategia que no está asociada a la posibili¬ 
dad de una pérdida considerable. Dado que hay dos equilibrios y no es evidente 
cuál de los dos se va a seleccionar, lo lógico para J2 es elegir la única estrate¬ 
gia que no puede acarrearle grandes desgracias. La cosa se complica ense¬ 
guida: si J1 anticipa que J2 va a jugar y , entonces debería jugar D, pero en tal 
caso J2, si está seguro de que J1 jugará D, debería jugar z y terminar en el 
equilibrio (D, z). Aquí no está nada claro qué tipo de consideraciones termi¬ 
narían conduciendo a los actores racionales a un resultado final. La confu¬ 
sión se debe a la existencia de varios equilibrios de Nash. Cuando hay equili¬ 
brios múltiples en un juego, la posibilidad de que haya una forma “natural” 
de jugar se desvanece. 

Resumiendo: hay dos interpretaciones del equilibrio de Nash, una no ra¬ 
cionalista, basada en aprendizaje, que exige que el juego se repita a lo largo 
del tiempo, y otra racionalista, compatible con la posibilidad de que el juego 
se juegue una única vez, pero que sólo resulta convincente cuando el equili¬ 
brio de Nash coincide con la forma “natural” de jugar el juego. Así sucede a 
menudo, aunque no en todos los casos (por ejemplo, cuando hay equilibrios 
múltiples). De cualquier forma, la idea misma de equilibrio de Nash es neu¬ 
tral con respecto al proceso de consecución del equilibrio que se postule. 


Los problemas de la cooperación a través de juegos 
en forma normal 

Buena parte de las aplicaciones de los juegos en forma normal tienen que 
ver con el problema de la cooperación. Éste surge cuando para conseguir 
ciertas ganancias es necesario que los actores (dos o más) cooperen entre sí. 
En cierto modo, pueden distinguirse dos planos, el plano de lo que es bueno 
para todos y el plano de lo que es bueno para cada uno. Si ambos coinciden, 
si lo que es bueno para todos es bueno para cada uno, todos tendrán incenti¬ 
vos para cooperar. Pero lo más habitual en la sociedad es que el plano colec¬ 
tivo y el plano individual no coincidan completamente. En esos casos, sur¬ 
gen dilemas profundos acerca de qué exige la racionalidad de las personas. 
La teoría de la acción colectiva, que analiza el problema de la cooperación, 
se centra en varios juegos en forma normal que representan las posibles mo¬ 
dulaciones entre el plano de lo que es bueno para todos y el plano de lo que 
es bueno para cada uno. 

Es posible representar un juego genérico de la cooperación para dos juga¬ 
dores, tal como aparece en el cuadro 2.13. Cada jugador tiene dos es trate- 
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CUADRO 2.13 

LA ESTRUCTURA DEL JUEGO DE LA COOPERACIÓN 

J2 


C D 


C 

D 


R = recompensa 
T = tentación 
P = penalización 
S = “sucker” (hacer el primo) 


R, R 

S, T 

T, S 

P, P 


gias, cooperar (C) o defraudar (D). Los pagos están definidos mediante le¬ 
tras, no mediante números. Si los dos cooperan, el resultado es una recom¬ 
pensa para cada uno (R). Si ninguno coopera, los dos son penalizados (P). Si 
uno defrauda y el otro coopera, el primero recibe el pago de la tentación de 
engañar al otro (T) y el segundo el pago de ser el sucker (hacer el primo), (S). 
Lo que hay en el cuadro 2.13 no es exactamente un juego, sino una estructu¬ 
ra genérica de interacción que dependiendo de cómo definamos el orden de 
los pagos da lugar a unos juegos u otros. Se consideran aquí juegos simétri¬ 
cos, en los que las preferencias de los jugadores sobre las consecuencias son 
idénticas. 

Se pueden definir al menos cuatro juegos posibles que tengan relevancia 
directa para el problema de la cooperación. Lo que distingue a cada juego, 
según se refleja en el cuadro 2.14, son distintas preferencias. 


CUADRO 2.14 

CUATRO JUEGOS DE COOPERACIÓN 


Orden de preferencias 

Juego resultante ! 

T > R > P > S 

Dilema del Prisionero 

R > T > P > S 

Seguridad 

T > R > S > P 

Gallina 

R > T > S > P 

Privilegiado 
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El juego más favorable para la cooperación, en el que no se produce nin¬ 
guna tensión entre los planos colectivo e individual, es el que a veces se lla¬ 
ma “el juego privilegiado”. Desde el punto de vista del colectivo, el resultado 
mejor se produce con la cooperación mutua; desde el punto de vista indivi¬ 
dual, el resultado mejor se produce cooperando. Hay un único equilibrio de 
Nash, con estrategias puras, la cooperación mutua, puesto que cooperar do¬ 
mina fuertemente a defraudar. En el cuadro 2.15 se ofrece un ejemplo en el 
que se han dado arbitrariamente valores numéricos a las preferencias. Es fá¬ 
cil advertir que el único equilibrio de Nash es (C, C). 


CUADRO 2.15 

EL JUEGO PRIVILEGIADO 

J2 


C D 


C 

D 


3, 3 

1, 2 

2, 1 

0, 0 


En el extremo opuesto se sitúa el Dilema del Prisionero (DP). En un DP 
se produce una contraposición entre el plano individual y el colectivo. Lo 
que es bueno para el grupo es malo para el agente y al revés. A pesar de que 
hay una posibilidad de que todo el grupo esté mejor si todos cooperan, la ra¬ 
cionalidad les conduce a no cooperar con el otro, terminando en un resulta¬ 
do subóptimo. Si se observa el cuadro 2.14, las relaciones de preferencia en¬ 
tre T y R por un lado y entre P y S por otro están invertidas con respecto al 
juego Privilegiado. En el cuadro 2.16 se ofrece una representación con pagos 
numéricos. El DP tiene un único equilibrio de Nash (D, D), en el que los dos 
defraudan. Aunque los dos son conscientes de que ambos podrían estar me¬ 
jor cooperando, el par (C, C) no es un equilibrio, puesto que la estructura de 
pagos es tal que defraudar domina fuertemente a cooperar. Si el otro coope¬ 
ra, lo mejor que puedo hacer es aprovecharme de su cooperación, defrau¬ 
dando yo mismo; y si el otro defrauda, lo mejor que puedo hacer es de¬ 
fraudar también, pues si no acabaré haciendo “el primo”, que es el peor 
resultado posible. Por tanto, haga lo que haga el otro siempre me compensa 
defraudar. La anomalía de este juego pasa por el hecho de que siendo los dos 
conscientes de las ganancias de la cooperación, no tienen modo de obtener¬ 
las, pues cada uno sabe que el otro no tiene incentivos para cooperar. 

Entre el DP y el juego Privilegiado hay otros dos juegos que presentan una 
tensión entre los planos colectivo e individual más rebajada que en el DP pero 
más acentuada que en el juego Privilegiado. Por un lado se encuentra el juego 
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CUADRO 2.16 

EL DILEMA DEL PRISIONERO 

J2 


C D 


C 

J1 

D 


2, 2 

0, 3 

3, 0 

1, 1 


de la Seguridad. Como puede verse en el cuadro 2.14, este juego sólo se dis¬ 
tingue del DP en la ordenación de las dos preferencias primeras: mientras 
que en el DP sucede que T > R, ahora R > T, es decir, el agente está mejor 
cooperando si el otro coopera que defraudando si el otro coopera. En el cua¬ 
dro 2.17 se presenta una ilustración numérica de este juego. No hay una rup¬ 
tura completa entre el interés individual y el colectivo porque ahora el agente 
está dispuesto a cooperar si tiene confianza o seguridad en que el otro tam¬ 
bién va a cooperar. En el DP la seguridad de que el otro fuera cooperador in¬ 
ducía a defraudar. Con todo, si el jugador espera que su rival defraude en el 
juego de la Seguridad, lo mejor que puede hacer es defraudar también. Esto 
da lugar a dos equilibrios de Nash con estrategias puras, el equilibrio (C, C) y 
el equilibrio (D, D). Puesto que en el equilibrio (C, C) los dos jugadores están 
mejor que en el equilibrio (D, D), lo lógico es que se seleccione el primero 
frente al segundo. La clave está en que haya un mínimo de confianza entre 
los jugadores. Este juego tiene un tercer equilibrio de Nash con estrategias 
mixtas, aunque dadas las características del juego resulta difícil encontrar 
una justificación al uso de estrategias mixtas en este caso. Hay cierto consen¬ 
so en considerar que el juego de la Seguridad es el que mejor representa la 
mayoría de los ejemplos de acción colectiva, sobre todo en el ámbito de la po¬ 
lítica, donde hay agentes a los que les preocupa un cierto bien colectivo por el 
que están dispuestos a cooperar a condición de que otros también lo hagan. 


CUADRO 2.17 

EL JUEGO DE LA SEGURIDAD 
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C D 


3, 3 

0, 2 

2, 0 

1 , 1 


J1 


D 




TEORÍA DE JUEGOS 


57 


Por último, está el juego del Gallina: es igual al DP sólo que ahora se invier¬ 
te el orden de las dos últimas preferencias. Si en el DP es mejor para un juga¬ 
dor que los dos defrauden a que él coopere y el otro defraude, ahora esto cam¬ 
bia y lo peor para ambos jugadores es que ninguno coopere. La imagen a la 
que siempre se recurre para ilustrar este juego, y de donde recibe su nombre, 
son esas carreras de coches en que dos conductores avanzan uno contra el 
otro y el primero en retirarse pasa a ser considerado “gallina" o cobarde. Evi¬ 
dentemente, si ninguno de los dos se retira, se produce un choque con conse¬ 
cuencias fatales. En esas condiciones, es mejor quedar como “gallina" que pro¬ 
vocar el choque. Una versión numérica del juego aparece en el cuadro 2.18. 

Este juego tiene dos equilibrios de Nash asimétricos con estrategias pu¬ 
ras. Un equilibrio es asimétrico cuando los jugadores reciben pagos diferen¬ 
tes. En este caso, los equilibrios son (D, C) y (C, D). Si J2 asume que J1 va a 
defraudar, lo mejor que puede hacer es cooperar; igualmente, si J1 asume 
que J2 va a defraudar, J1 cooperará. Es difícil saber cuál de los dos equili¬ 
brios va a prevalecer, pues depende de factores que van más allá del juego, 
que no se pueden incorporar en la representación matricial: en concreto, de¬ 
pende de lo que se conoce como “tecnologías de compromiso (commit - 
ment)”, es decir, formas de hacer irrevocable un curso de acción, de modo 
que no haya marcha atrás posible. La persona que realiza un compromiso 
(véase el capítulo 3) se ata las manos, como hizo Ulises amarrándose al más¬ 
til del barco para no dejarse arrastrar por la tentación de ir detrás de las sire¬ 
nas cuando éstas cantaban. En el ejemplo anterior, un jugador podría reali¬ 
zar un compromiso arrancando el volante del coche, haciendo ver al 
contrario que no tiene forma de modificar su trayectoria. Si ninguno de los 
dos jugadores pudiera realizar un compromiso, la solución más lógica del 
juego pasa por un equilibrio con estrategias mixtas. Con los pagos ordinales 
y arbitrarios del cuadro 2.18, el equilibrio con estrategias mixtas sería (1/2C, 
1/2D; 1/2C, 1/2D). Este equilibrio es simétrico. 

Los cuatro juegos analizados representan las variaciones posibles en la inte¬ 
racción estratégica que surge en los problemas de la acción colectiva. Cuál de 
los cuatro juegos sea el apropiado para modelizar una situación empírica 


CUADRO 2.18 

EL JUEGO DEL GALLINA 
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dependerá de las características propias de cada situación. En cualquier caso, hay 
una lógica subyacente común de la que derivan estos cuatro juegos, pudiéndo¬ 
se mostrar cómo cambios en ciertos parámetros del problema de la acción 
colectiva originan los distintos juegos posibles. Estos cambios pueden proce¬ 
der de las características técnicas del bien colectivo que se esté persiguiendo 
(Heckathom 1996), o de variaciones en las motivaciones de los agentes (Sán- 
chez-Cuenca 2007). Un análisis más profundo de la acción colectiva desde el 
punto de vista de la teoría de juegos puede encontrarse en Medina (2007). 


Aplicación: Reformas administrativas 

Desde un punto de vísta histórico, la mayoría de los Estados se enfrenta a 
graves dificultades para construir una administración eficiente y meritocrá- 
tica. Hay ciertas regiones del mundo, como Latinoamérica, en las que esas 
dificultades son especialmente complicadas, como lo demuestra la perviven- 
cia del patronazgo, el clientelismo y la corrupción en muchos de sus Esta¬ 
dos. Se ha sugerido que los problemas que arrastran las administraciones de 
los países latinoamericanos no son sino una herencia de su pasado colonial. 
España, según este argumento, habría llevado a aquel continente prácticas y 
costumbres que dieron lugar a administraciones ineficientes. 

Sin embargo, cabe cuestionar que el peso de la herencia colonial fuera 
tan grande, puesto que, manteniéndose más o menos constante en todos los 
países latinoamericanos, en algunos de ellos se consiguió llevar a cabo refor¬ 
mas meritocráticas, mientras que en otros no. Ha de haber, por tanto, algún 
otro factor que explique esta variación. 

Por otro lado, una reforma institucional meritocrática plantea en sí mis¬ 
ma algunas cuestiones interesantes. Si el partido en el poder se beneficia de 
las ventajas políticas que le proporciona poner la administración a su servi¬ 
cio, ¿qué razones podría tener ese partido para aprobar una reforma que im¬ 
pida instrumentalizar políticamente a la administración? ¿Por qué iba a re¬ 
nunciar a una ventaja? 

Barbara Geddes (1991) ha propuesto un modelo muy sencillo sobre las re¬ 
formas meritocráticas en Latinoamérica basado en un juego en forma normal. 
La autora parte del supuesto de que los políticos son racionales; en concreto, 
son maximizadores de votos. Aunque a los políticos les preocupen las políticas 
que se realizan desde el poder, en última instancia entienden que para poder 
realizar sus políticas preferidas han de ganar primero las elecciones. Con el fin 
de simplificar al máximo, partimos de una situación en la que sólo hay dos 
partidos que compitan por el poder, el Partido 1 y el Partido 2. Geddes plantea 
dos juegos. El primero tiene lugar durante la campaña electoral. El segundo se 
produce cuando uno de los partidos ha ganado las elecciones y se enfrenta a la 
decisión de introducir una reforma meritocrática o no. 
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En el primer juego, que se representa en el cuadro 2.19, los partidos pue¬ 
den no recurrir al patronazgo para ganar las elecciones o recurrir al mismo. 
Si no recurren al patronazgo, dependen enteramente del atractivo de sus 
propuestas para conseguir apoyos electorales. Sea la probabilidad de ga¬ 
nar las elecciones del partido / (/ = 1,2) cuando no usa el patronazgo. Si i 
usa patronazgo, consigue un beneficio electoral adicional x. que se resta de 
lo que obtiene el partido /. Puesto que los políticos sólo buscan votos en este 
modelo, los pagos quedan definidos mediante v. y x r 


CUADRO 2.19 

EL JUEGO ELECTORAL 

Partido 2 


No patronazgo Patronazgo 

No patronazgo 

Partido 1 

Patronazgo 


El juego del cuadro 2.19 sólo tiene un equilibrio de Nash con estrategias 
puras, en el que los dos partidos recurren al patronazgo. El patronazgo es la 
estrategia dominante para ambos jugadores. 

Desde el punto de vista de las elecciones, por tanto, los dos partidos tienen 
incentivos para recurrir al patronazgo. Geddes, sin embargo, considera que 
hay un segundo juego que tiene lugar en el Parlamento una vez realizadas las 
elecciones. El partido mayoritario accede al poder, mientras que el minorita¬ 
rio se queda en la oposición. La cuestión que se plantea entonces es si se 
aprueba una reforma meritocrática de la administración o no. Ahora intervie¬ 
ne un factor adicional que no estaba presente en el primer juego: los posibles 
beneficios electorales de votar a favor de la reforma cuando parte de la socie¬ 
dad rechaza la práctica del patronazgo. Si se tiene en cuenta este factor, pue¬ 
de ocurrir que, bajo ciertas condiciones, los beneficios de votar por la refor¬ 
ma sean superiores a los beneficios que proporciona el patronazgo. 

En este segundo juego, que se representa en el cuadro 2.20, el partido 
mayoritario está en filas y el minoritario en columnas. Los pagos son muy 
parecidos a los del juego anterior. Aparece un nuevo parámetro, e, que mide 
los beneficios electorales de votar en el Parlamento en consonancia con el 
deseo de la opinión pública a favor de la reforma. Cuanto mayor sea el apo¬ 
yo a la reforma en la ciudadanía, mayor es el beneficio de votar a favor de la 
reforma. Nótese que para que se apruebe la reforma es necesario que el par¬ 
tido mayoritario esté a favor. De esta manera, si el partido mayoritario vota 


V v v 2 

Vi - X 2 , v 2 + x 2 

V, + X v v 2 -x, 

v, + x 1 - x 2 , v 2 - + x 2 
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CUADRO 2.20 

EL JUEGO PARLAMENTARIO 

Partido minoritario 


Reforma 


Patronazgo 


Partido 

mayoritario 


Reforma 

Patronazgo 


V V 
v V v 2 

Vi + e, v 2 - e 

Vi + x 1 - x 2 - e, v 2 + x 2 - x 1 + e 

Vi + - x 2 , v 2 - x 1 + x 2 


en contra de la reforma y el minoritario a favor, continúa el patronazgo en la 
administración, pero el partido minoritario se lleva los beneficios electorales 
de haber actuado tratando de reformar la administración. 

Para calcular el equilibrio de Nash en este segundo juego, es necesario 
hacer algún supuesto sobre el valor de e en relación a los beneficios del pa¬ 
tronazgo. Así, cuando ocurre que - x 2 ) > e, es decir, cuando el beneficio 
electoral de apoyar la meritocracia es menor que el beneficio electoral de 
mantener el patronazgo, el partido mayoritario se opone a la reforma. El 
partido minoritario, en ese caso, vota a favor de la reforma, pues la estrate¬ 
gia 'reforma” domina fuertemente a la estrategia "patronazgo”. El equilibrio 
de Nash, por tanto, es (Patronazgo; reforma) si (pc x ~x 2 ) > e . 

Cuando (x l - x 2 ) < e , los dos partidos votan a favor de la reforma. Por un 
lado, sigue siendo "reforma” la estrategia dominante para el partido minorita¬ 
rio. Y, por otro, ahora le compensa al partido mayoritario aprobar la reforma, 
pues el beneficio electoral de la misma es mayor que el beneficio del patro¬ 
nazgo. El equilibrio de Nash resultante es (Reforma; reforma) si (x Y - x 2 ) < e . 

Con el fin de extraer consecuencias empíricas del modelo, Geddes realiza 
el siguiente supuesto: considera que cuanto más parecidos sean los partidos 
entre sí en cuanto a apoyo electoral, más parecidos serán también los benefi¬ 
cios del patronazgo y por lo tanto menor será la cantidad (x t - x 2 ). Eso signi¬ 
fica que cuanto más parecido sea el apoyo electoral de los dos principales 
partidos, más probable es que se satisfaga la inecuación (x { - x 2 ) < e y, de 
este modo, se aprueba la reforma. 

Esta hipótesis, derivada del modelo mediante un sencillo ejercicio de es¬ 
tática comparativa, puede someterse a prueba empírica, comprobando si es 
cierto que las reformas meritocráticas de la administración que se han apro¬ 
bado en Latinoamérica se corresponden con la situación que describe el mo¬ 
delo de dos partidos con parecida fuerza electoral. Geddes propone un dise¬ 
ño de investigación comparativo en el que hay casos de reforma (Colombia, 
Venezuela, Uruguay) y de no reforma (Brasil, Chile). En general, encuentra 
una confirmación razonable de la hipótesis: las reformas tienden a producir¬ 
se cuando los grandes partidos tienen una fuerza electoral semejante. 
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Caracterización de un juego en forma extensiva 

En los juegos en forma normal, se considera que los jugadores eligen sus es¬ 
trategias simultáneamente o, lo que equivale a lo mismo, que cada jugador 
elige su estrategia sin saber cuál elige su rival. Esto es una limitación impor¬ 
tante, pues en muchas situaciones reales se observa una secuencia de juga¬ 
das, de tal manera que los jugadores van tomando decisiones conforme 
avanza el juego. La representación de un juego en forma extensiva permite 
modelizar tanto la secuencia de jugadas como la información de la que dis¬ 
ponen los jugadores en cada jugada. Supone un avance fundamental con res¬ 
pecto a los juegos en forma normal, haciendo que la teoría de juegos se vuel¬ 
va más realista y más atenta a los detalles de cada situación estratégica. 

En un juego en forma extensiva la idea de estrategia es algo más rica que 
en un juego en forma normal. En un juego en forma normal una estrategia 
es un plan completo de acción que se establece de una vez por todas. No 
puede ser de otra manera dado que no se observa la estrategia del contrario. 
En cambio, en un juego en forma extensiva una estrategia es un plan de ac¬ 
ción contingente, que especifica qué hará el jugador ante cada movimiento 
posible del rival. 

Los juegos en forma extensiva más simples se pueden representar me¬ 
diante un árbol de decisión. El árbol se compone de nodos y ramas. De cada 
nodo pueden salir varias ramas que se dirigen a otros nodos. Los árboles de 
decisión facilitan la comprensión del juego. Pero es importante subrayar 
desde el principio que la representación arbórea del juego no siempre es po¬ 
sible en los juegos en forma extensiva. Por ejemplo, si las estrategias del 
jugador no son discretas, sino continuas, el árbol no puede dar cuenta de la 
estructura del juego. Supóngase que se está analizando un juego de negocia¬ 
ción en el que un jugador ha de hacer una oferta entre 0 y 1 euro. El conjunto 
total de ofertas no se puede representar discretamente mediante ramas. En 
realidad, lo esencial de un juego en forma extensiva no es el árbol, sino la 
especificación de: a) la secuencia de jugadas u orden de movimientos, b) las 
estrategias posibles de los jugadores, c) la información que tienen los juga- 
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dores en oada movimiento, y d) los pagos que reciben los jugadores para 
cada combinación posible de estrategias. La especificación de estos cuatro 
elementos se puede hacer con un árbol o sin él. 

Un árbol es un conjunto de nodos conectados mediante ramas que repre¬ 
sentan una relación de precedencia temporal. Si un nodo está debajo de otro 
(o a la derecha de otro, si el árbol se dibuja apaisado, de izquierda a dere¬ 
cha), eso significa que el que está debajo interviene después del que está arri¬ 
ba. La regla fundamental de construcción del árbol es que cada nodo sólo 
puede tener un predecesor o, con otras palabras, de dos nodos no pueden salir 
ramas que acaben en el mismo nodo. Además, hay que tener en cuenta la 
existencia de nodos terminales, nodos de los que no sale ninguna rama por¬ 
que señalan el final del juego. Es en los nodos terminales donde se incluyen 
los pagos de los jugadores. 

En el cuadro 3.1 puede verse un primer ejemplo de árbol de decisión. Se 
trata de un árbol muy sencillo, con tres jugadas o movimientos y cuatro no¬ 
dos terminales. Junto a cada nodo no terminal, se indica qué jugador ha de 
actuar: J1 interviene en la primera y en la tercera jugada, J2 mueve en la se¬ 
gunda. De cada nodo no terminal salen dos ramas, lo que significa que en 
este ejemplo cada jugador tiene dos cursos de acción posibles en cada juga¬ 
da. En los nodos terminales se han incluido unos pagos arbitrarios, siendo el 
primer número el pago de J1 y el segundo número el pago de J2. 


CUADRO 3.1 

EJEMPLO DE UN JUEGO EN FORMA EXTENSIVA 



Con respecto a la información de la que disponen los jugadores, en cada 
fase del juego en que interviene un jugador se especifica su conjunto de infor¬ 
mación (information set). El conjunto de información puede cubrir uno o va¬ 
rios nodos. (Técnicamente, se dice que el conjunto de información hace una 
“partición" de los nodos.) Si un conjunto de información tiene un único 
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nodo, se le llama singleton en inglés. En la medida en que un nodo contiene 
una descripción completa de todo lo que ha sucedido hasta el momento, si el 
conjunto de información es un singleton , entonces el jugador, en ese nodo, 
conoce toda la historia anterior del juego. Sin embargo, si el conjunto de in¬ 
formación cubre varios nodos, es que el jugador no sabe a ciencia cierta en 
qué parte del árbol se encuentra o, lo que es igual, no sabe qué jugada ha 
realizado su rival en el movimiento anterior. Cuando el conjunto de informa¬ 
ción cubre más de un nodo, lo representamos gráficamente mediante una 
línea discontinua que une los nodos que componen el conjunto de informa¬ 
ción. 


CUADRO 3.2 

ÁRBOLES CON INFORMACIÓN IMPERFECTA 




En el cuadro 3.2 tenemos dos ejemplos. En el árbol de la izquierda, co¬ 
mienza jugando Jl, que tiene tres acciones posibles, /, C o D. A continuación 
interviene J2. Pero nótese que los nodos de J2 están conectados por una 
línea discontinua (el conjunto de información cubre los tres nodos). Esto 
significa que, cuando le toca jugar a J2, éste no sabe qué es lo que ha hecho 
Jl, si ha jugado /, C o D. En el árbol de la derecha tenemos un juego pareci¬ 
do, sólo que ahora J2 tiene dos conjuntos de información. El primero cubre 
los nodos correspondientes a las acciones / y C, el segundo es un singleton 
formado por el nodo correspondiente a la acción anterior D. Ahora J2, cuan¬ 
do juega, sabe si Jl ha jugado D o si no ha jugado D . Pero si Jl no ha jugado 
D, J2 no es capaz de distinguir si Jl ha jugado I o C. 

Mediante la representación de los conjuntos de información de los juga¬ 
dores, podemos especificar qué sabe cada jugador en cada fase del juego. 
Cuando el conjunto de información cubre más de un nodo, es necesario 
además especificar cuáles son las creencias del jugador. Por ejemplo, en el 
fragmento de árbol en la parte izquierda del cuadro 3.2, el jugador tiene 
creencias sobre si se encuentra en el nodo izquierdo, central o derecho. 
Esas creencias se representan formalmente mediante una distribución de 
probabilidad. Por ejemplo, las creencias de estar en los nodos izquierdo. 
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central y derecho podrían ser: 1/5, 1/5 y 3/5 respectivamente. Recuérdese 
que en una distribución de probabilidad las probabilidades han de sumar 
uno. 

Las creencias sólo intervienen si no todos los conjuntos de información 
son singletons. Podemos establecer la siguiente distinción: se dice que un 
juego en el que todos sus conjuntos de información son singletons es un jue¬ 
go de información perfecta . En cambio, un juego en el que hay conjuntos de 
información que cubren más de un nodo es un juego de información imper¬ 
fecta. Como luego se explica, todo juego en forma normal es un juego de in¬ 
formación imperfecta. En cambio, los juegos en forma extensiva pueden ser 
de información perfecta o imperfecta. 

Por último, los juegos en forma extensiva son más flexibles que los juegos 
en forma normal gracias a la posibilidad de incluir sucesos exógenos en el 
juego, es decir, sucesos que pueden alterar los pagos de los jugadores pero 
que no tienen que ver con las acciones o elecciones que realizan los propios 
jugadores. Esos sucesos exógenos pueden ocurrir en cualquier momento del 
juego y se atribuyen a un jugador ficticio que suele recibir el nombre de “Na¬ 
turaleza” o “Azar”: Por ejemplo, supongamos un juego entre un Gobierno y 
los electores. El Gobierno lleva a cabo una política económica y los electo¬ 
res, observando los resultados económicos, han de decidir si volver a votar al 
Gobierno o votar a la oposición. El problema está en que esos resultados no 
dependen sólo de lo que haga el Gobierno, sino también de las condiciones 
objetivas en las que se encuentra el país, que por simplificar diremos que 
pueden ser buenas o malas (ciclo económico internacional, herencia recibi¬ 
da del anterior Gobierno, etc.). Por muy bien que lo haga el Gobierno, los re¬ 
sultados pueden ser pobres si las condiciones objetivas son malas, y al revés. 
Para incluir en el juego el suceso exógeno de que las condiciones son buenas 
o malas, podríamos considerar que la primera jugada corresponde al juga¬ 
dor “Naturaleza”, que puede decidir si las condiciones son buenas o malas. 
Cada tipo de condiciones corresponde a una rama distinta que sale del nodo 
inicial de “Naturaleza”. Este artificio se utiliza recurrentemente en el capítu¬ 
lo 5, donde se tratan los juegos de señal. 


Relación entre juegos en forma normal y extensiva 

Los juegos en forma extensiva se pueden reducir a juegos en forma normal. 
El interés de estudiar esta reducción es que ayuda a entender mejor qué es 
una estrategia en cada tipo de juego y además prepara el terreno para la in¬ 
troducción de la idea de equilibrio de perfección en el subjuego que se expli¬ 
ca más adelante en este capítulo. La principal diferencia entre ambos tipos 
de juego consiste en que mientras en un juego en forma extensiva los jugado¬ 
res van decidiendo qué hacer en función de lo que hacen sus rivales, en un 
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CUADRO 3.3 

JUEGO EN FORMA EXTENSIVA 

J1 



juego en forma normal las estrategias deben cubrir desde el comienzo todas 
las contingencias posibles. 

El juego en forma extensiva que aparece en el cuadro 3.3 es de informa¬ 
ción perfecta, pues todos los conjuntos de información son singletons. Este 
juego se puede representar en forma normal tal y como aparece en el cuadro 
3.4. Puesto que la acción de J2 de mover hacia la izquierda no es la misma 
cuando J1 ha jugado U que cuando J1 ha jugado D , debemos distinguirlas 
mediante nombres diferentes, en este caso se llaman l y V. Lo mismo sucede 
con la acción de mover a la derecha, r y r\ Esto significa que J2 tiene cuatro 
estrategias distintas en el juego en forma extensiva, que deben poder ser re¬ 
presentadas en el juego en forma normal. J1 tiene dos estrategias posibles, U 
o D. El cruce de las cuatro estrategias posibles de J2 con las dos de J1 da lu¬ 
gar a ocho resultados distintos. Sin embargo, en el juego en forma extensiva 
sólo aparecen cuatro resultados, sólo hay cuatro nodos terminales. ¿De dón¬ 
de salen los otros cuatro? 


CUADRO 3.4 

EL JUEGO DEL CUADRO 3.3 EN FORMA NORMAL 
J2 



/, /' 

/, f 

r, r 

r, r' 

u 

2, 1 

2, 1 

0 , 0 

0 , 0 

D 

-1, 1 

3, 2 

-1,1 

3, 2 
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Como puede verse en el cuadro 3.4, los pagos están duplicados, pues las 
estrategias en un juego en forma normal son planes completos de acción, 
que han de cubrir todas las posibilidades, de manera tal que, por ejemplo, la 
estrategia de J2 l, Y significa: si J1 juega V, 32 hace /; si J1 hace D, 32 juega Y. 
La duplicación de los pagos se produce entonces porque aunque el resultado 
final pueda ser el mismo, las estrategias no son iguales: si J1 juega U , el re¬ 
sultado es el mismo con las estrategias (/, Y) y (/, /), ya que la parte derecha 
del juego no llega a desarrollarse. 

La reducción es más directa si se trata de un juego de información imper¬ 
fecta. En el cuadro 3.5 tenemos dos juegos, uno en forma extensiva y otro en 
forma normal. El juego en forma extensiva se caracteriza por el hecho de 
que los nodos de J2 están incluidos en un mismo conjunto de información, 
esto es, por el hecho de que J2 desconoce la jugada anterior de J1. No tenien¬ 
do información sobre lo que ha pasado, su decisión de mover hacia la iz¬ 
quierda (acción /) es la misma ya esté en el nodo izquierdo o en el nodo dere¬ 
cho y por eso no distinguimos la estrategia / y Y, sino que representamos 
ambas con un nombre único. De ahí que los cuatro resultados posibles en el 
juego en forma extensiva se correspondan con los cuatro resultados posibles 
del juego en forma normal. 


CUADRO 3.5 

UN JUEGO EN FORMA EXTENSIVA Y NORMAL 

J1 



J2 


I fí 


2, 1 

0 , 0 

- 1 , 1 

3, 2 


J1 


D 
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Equilibrio por retroinducción 

En los juegos en forma extensiva con información perfecta hay siempre un 
equilibrio de Nash con estrategias puras. Formalmente, esto se demuestra en 
el llamado teorema de Zermelo-Kuhn. La manera de calcular el equilibrio es 
muy simple. Consiste en aplicar un procedimiento o algoritmo conocido 
como “retroinducción" (backwards induction). Se comienza por cualquier 
nodo anterior a un nodo terminal y se va retrocediendo hacia el origen del 
juego mediante la eliminación de las estrategias que estén fuertemente do¬ 
minadas. Si al comenzar por el nodo seleccionado no se llega hasta la prime¬ 
ra jugada, hay que volver a comenzar por otro nodo similar, que preceda a 
un nodo terminal, hasta conseguir en algún momento llegar al nodo inicial. 
Cuando se llega hasta el nodo inicial, se configura lo que se llama una ruta 
de equilibrio (equilibríum path). No obstante, el equilibrio de Nash en un jue¬ 
go en forma extensiva no está formado únicamente por la ruta de equilibrio. 
En realidad, en el equilibrio intervienen todas las mejores respuestas de cada 
jugador a cada jugada posible de su rival. 

Esto se puede entender mucho mejor a través de un ejemplo. Sea el juego 
de información perfecta que aparece en el cuadro 3.6. Situémonos en el 
nodo final en el que interviene por segunda vez Jl. J1 tiene dos acciones po¬ 
sibles, L o R. Si escoge L el pago es -1, si elige R el pago es 0. R domina a L, 
por tanto Jl elegirá R. Este razonamiento se resume en una flecha que parte 
del segundo nodo de Jl hacia R. Ahora retrocedemos hasta el nodo izquier¬ 
do de J2. J2, sabiendo, por el razonamiento anterior, que si Jl vuelve a tener 
oportunidad de jugar, jugará R, compara los pagos de sus dos estrategias 


CUADRO 3.6 

UN JUEGO RESUELTO POR RETROINDUCCIÓN 
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posibles, u y d. Si juega u , el juego acaba ahí y J2 recibe 4. Si juega d, sabe 
que luego J1 jugará R, luego J2 obtendrá 2. Como 4 es mejor que 2 (como u 
domina a ¿0, J2 jugará u. Por eso, trazamos la flecha correspondiente. Si J2 
estuviera en su nodo derecho, elegirá / en lugar de r, pues con l obtiene 6 y 
con r 4. La flecha va paralela entonces a 1. Retrocedemos ahora hasta el pri¬ 
mer nodo de Jl. J1 ha de elegir en primera instancia entre U y D. Si elige D, 
sabe que J2 luego elegirá / y el resultado es -2. Si elige U, sabe que luego J2, 
sabiendo J2 que si elige d Jl jugará R en su segundo movimiento, jugará u , 
con un resultado para Jl de 2. Como 2 es mejor que -2, Jl elige U. 

La ruta de equilibrio es U, u. Jl juega U y J2 juega u, acabando ahí el jue¬ 
go. Pero esta ruta de equilibrio no constituye una especificación completa 
del equilibrio, pues la ruta de equilibrio es ésa porque Jl anticipa que si el 
juego evolucionara por otra ruta, J2 haría algo distinto. El equilibrio está 
formado por todas las respuestas óptimas, las que tienen una flecha marca¬ 
da. En este ejemplo, el equilibrio se formularía especificando primero todas 
las elecciones de equilibrio de Jl y luego todas las de J2. Concretamente, el 
equilibrio de Nash calculado por retroinducción sería: (U, R; u, 1). Nótese 
que aunque Jl nunca tiene la oportunidad de jugar R ni J2 de jugar /, la ruta 
de equilibrio se sostiene sobre las expectativas de que si el juego avanzara 
por una ruta distinta en la que Jl tuviera una segunda oportunidad de mo¬ 
ver, o J2 se encontrara en su nodo derecho, entonces Jl jugaría R y J2 /. 

Todo equilibrio calculado mediante retroinducción es un equilibrio de 
Nash, pero no todo equilibrio de Nash se puede calcular mediante retroin¬ 
ducción. Esto significa que los equilibrios por retroinducción son un subcon¬ 
junto del conjunto de equilibrios de Nash. ¿Pero cómo puede haber equili¬ 
brios de Nash que no sigan la lógica de la retroinducción? En la próxima 
sección se analiza esta cuestión con bastante detalle, lo que obliga a introdu¬ 
cir un refinamiento técnico en la idea de equilibrio de Nash, pues resulta que 
no todos los equilibrios de Nash son razonables. 


Equilibrio de perfección en el subjuego 

Hay un ejemplo de Richard Selten que muestra de forma muy simple en qué 
sentido el equilibrio por retroinducción es más “exigente" en términos de ra¬ 
cionalidad que el equilibrio de Nash. En el juego en forma extensiva que 
aparece en el cuadro 3.7, Jl puede hacer £/, en cuyo caso se acaba el juego, o 
hacer D, en cuyo caso interviene J2, que puede hacer uod. Aplicando el pro¬ 
cedimiento de la retroinducción, comenzamos por el nodo de J2. Es evidente 
que J2, si llega a jugar, jugará d, pues con d obtiene 0, mientras que con u 
obtiene -1. Sabiendo esto Jl, su decisión es trivial: en la primera jugada, eli¬ 
ge D, pues con D termina obteniendo 2, frente a 1 que obtendría con U. En 
este caso el equilibrio del juego, (D; d), coincide con la ruta de equilibrio. 
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CUADRO 3.7 

EL JUEGO DE SELTEN 



Podemos ahora representar el juego en forma extensiva del cuadro 3.7 
como un juego en forma normal. La transformación aparece en el cuadro 3.8. 
Nótese que cuando J1 elige U, los pagos de J2 son los mismos ya elija u o d 
por la sencilla razón de que cuando J1 elige U, J2 no llega a intervenir. 

CUADRO 3.8 

EL JUEGO DE SELTEN EN FORMA NORMAL 

J2 


U d 


U 

J1 

D 


1,1 

1,1 

- 1,-1 

2 , 0 


Un breve examen del juego del cuadro 3.8 permite descubrir que tiene 
dos equilibrios de Nash, (U; u) y (D; d). Sin embargo, acabamos de ver que 
(U; u) no es un equilibrio por retroinducción. ¿Por qué desaparece el equili¬ 
brio (U; u) al analizar el juego en forma extensiva mediante retroinducción? 
Para poder responder, conviene fijarse en lo que significa el equilibrio de 
Nash (U; u), El sentido de este equilibrio es el siguiente: si J1 se convence de 
que J2 va a jugar u, entonces la respuesta óptima de J1 es jugar U\ por otro 
lado, si J1 va a jugar U, la respuesta óptima de J2 es u. Es verdad que una 
vez que J1 juega U, J2 obtiene el mismo pago con u que con d , pero si jugara 
d, entonces J1 jugaría D, luego (U; d) no puede ser un equilibrio, mientras 
que (U; u) sí. El equilibrio de Nash (U; u) se sostiene sobre la creencia de J1 
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de que J2 va a jugar u. La cuestión-que plantea Selten es: ¿resulta razonable 
esa creencia? ¿Es convincente que si J2 es un jugador racional, vaya a elegir 
u en lugar de d en caso de que le toque jugar? El análisis del juego en forma 
extensiva demuestra que la respuesta en ambos casos es negativa, que el 
equilibrio (U; u) no resulta razonable porque J2, si llega a jugar, nunca elegi¬ 
rá u\ siempre sacará más jugando d. J2, por decirlo así, no va a tirar piedras 
contra su propio tejado. Pero en ese caso J1 nunca pensará que J2 podría 
elegir u y entonces no tendrá ningún tipo de temor de que J2 pueda elegir u 
en caso de que J1 elija D. 

A J2 le convendría que J1 se creyera que si juega D, J2 va a responder con 
u, pues en ese caso J1 nunca hará D y se seleccionará el equilibrio (U; u) que 
le proporciona a J2 más utilidad que el equilibrio (D; d). Sin embargo, J2 no 
puede llegar a convencer a J1 de que va a jugar u, porque una vez que le toca 
jugar, es irracional para J2 elegir u. El equilibrio (U; u) no es razonable por¬ 
que sólo tiene sentido bajo el supuesto de una amenaza que no es creíble, la 
amenaza de J2 según la cual si le toca jugar, jugará u y no d. La amenaza no 
es creíble porque, en caso de tener que llevarla a cabo, J2 está mejor rene¬ 
gando que cumpliéndola. 

La diferencia principal entre el equilibrio de Nash y el equilibrio calcula¬ 
do por retroinducción es que en el primero no se tiene suficientemente en 
cuenta el problema de la credibilidad de las promesas y amenazas que pue¬ 
dan realizar los jugadores. Una promesa o una amenaza sólo es creíble si lle¬ 
gado el momento de llevarla a cabo, el jugador está mejor cumpliéndola que 
renegando. En el análisis de un juego las amenazas y promesas increíbles no 
desempeñan papel alguno. El equilibrio por retroinducción filtra los equili¬ 
brios de Nash pasándolos por el tamiz de la credibilidad. 

El problema de la retroinducción es que resulta de aplicación limitada: 
sólo sirve para juegos con información perfecta. Si hay conjuntos de infor¬ 
mación con múltiples nodos, el procedimiento de ir viendo en cada nodo qué 
estrategia es dominante deja de ser factible. Para evitar esta restricción, Sel- 
ten propuso un concepto nuevo de equilibrio, el equilibrio de perfección en 
el subjuego (subgame perfect equilibrium), que generaliza la intuición que 
subyace a la lógica de la retroinducción. Para explicar este tipo de equilibrio, 
es necesario comenzar con una definición. Un subjuego propio (proper sub¬ 
game) es una parte de un juego en forma extensiva que puede tratarse como 
un juego en sí mismo. Más técnicamente, un subjuego propio es un subcon¬ 
junto de nodos de un juego que contiene un nodo inicial y todos sus suce¬ 
sores. 

Veamos cómo se aplica esta definición. En el cuadro 3.9 tenemos un jue¬ 
go en forma extensiva. Este juego tiene tres subjuegos propios, el que co¬ 
mienza en el nodo derecho de J2, el que comienza en el nodo izquierdo de J2 
y el que comienza en el nodo de J1 y que coincide con el propio juego. No 
hay ningún subjuego que comience con la jugada de J3 porque no hay un 
nodo inicial de J3. 
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CUADRO 3.9 

SUBJUEGOS DE UN JUEGO 



Ahora ya cabe introducir el equilibrio de perfección en el subjuego: se 
trata de una combinación de estrategias que en cada uno de los posibles sub¬ 
juegos del juego configura un equilibrio de Nash. Al exigir que las estrategias 
de equilibrio formen un equilibrio de Nash en cada subjuego del juego, lo 
que se está haciendo es obligar a esas estrategias a ser las respuestas óptimas 
en cualquier punto del juego. Es decir, en cada momento las estrategias de 
equilibrio han de coincidir con la respuesta óptima del jugador. Pero esto 
significa que el equilibrio nunca podrá basarse en una amenaza o promesa 
increíbles, pues las estrategias de equilibrio son en cada punto óptimas, lo 
que obliga a descartar la posibilidad de ejecutar amenazas o promesas que 
no convengan al jugador. 

En el cuadro 3.10 aparece un juego en forma extensiva en el que no se 
puede aplicar la retroinducción, pues en el segundo movimiento de J2 su 
conjunto de información está compuesto por dos nodos. No podemos deter¬ 
minar qué hará J2 en cada nodo porque J2 no sabe en cuál de los dos nodos 
se encuentra. El juego tiene tres subjuegos. El primero está formado por el 
segundo nodo de Jl, en el que J1 puede hacer A o B. Se trata, según la defini¬ 
ción, de un nodo inicial que contiene todos sus sucesores. Además, hay un 
segundo subjuego formado por el nodo inicial de J2 y todo lo que viene de¬ 
trás. El tercer subjuego coincide con la totalidad del juego. 

Comencemos por el subjuego más reducido de todos, es decir, el que se 
inicia en el segundo nodo de Jl. Este subjuego coincide, según se vio ante- 
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CUADRO 3.10 

JUEGO EN FORMA EXTENSIVA DE INFORMACIÓN IMPERFECTA 

J1 



riormente, con un juego en forma normal, tal y como se representa en el 
cuadro 3.11. 


CUADRO 3.11 

SUBJUEGO EN FORMA NORMAL DEL JUEGO DEL CUADRO 3.10 

J2 


c d 


A 

B 


2 , “2 

- 2 , 2 

- 2 , 2 

2,-2 


El juego del cuadro 3.11 no tiene un equilibrio de Nash con estrategias 
puras, aunque sí lo tiene con estrategias mixtas. Siendo el juego simétrico, 
las estrategias mixtas de ambos jugadores son idénticas. J1 hace indiferente 
a J2 cuando: 


UE n ic) =p(-2) + (1 -p)(2) = UEjd) = p( 2) + (1 ~p)(-2) 
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Esta ecuación sólo se satisface cuando p = 1/2, siendo p la probabilidad 
de que J1 elija A. Igualmente, la estrategia mixta de J2 también es jugar c 
con probabilidad 1/2. Una vez que conocemos las probabilidades de equili¬ 
brio, se puede calcular el pago esperado para ambos jugadores de participar 
en el subjuego en forma normal. Por ejemplo, para J2 el pago esperado es: 



4- 4" (-2) + (2) + 


i (2)+ 2-(-2) =0 


Dado que el pago esperado es 0 según el equilibrio de Nash, podemos pa¬ 
sar al subjuego superior, el del primer nodo de J2, y considerar si J2 elegirá i 
o r. Si J2 juega r, sabe que se pasa al juego en forma normal, donde el pago 
esperado es 0. Pero si juega /, J2 obtiene 1, que es mejor que 0. Luego el 
equilibrio de Nash de este segundo subjuego se puede formular así, empe¬ 
zando, como siempre, primero por las estrategias de J1 y luego por las de J2: 
(1/2A, 1/2B; 1, l/2c, l/2d). Por último, abordamos el subjuego que coincide 
con el propio juego y razonamos como antes: J1 ha de elegir entre R, antici¬ 
pando que J2 luego elegirá / para evitar pasar al subjuego en forma normal, 
y L. R, de acuerdo con estos cálculos, le da 3, mientras que L sólo 2. La elec¬ 
ción es por tanto R . Ahora podemos poner todos los elementos juntos y for¬ 
mular así el equilibrio de perfección en el subjuego: 



El equilibrio de perfección en el subjuego es uno de los más populares en 
los modelos de teoría de juegos que se elaboran en ciencia política y sociolo¬ 
gía, ya que se adapta a muchas situaciones posibles y resulta más convincen¬ 
te, aunque también más complicado, que el equilibrio de Nash. Si bien todos 
los equilibrios de perfección en el subjuego son equilibrios de Nash, no todos los 
equilibrios de Nash son equilibrios de perfección en el subjuego. Igualmente, 
todos los equilibrios hallados mediante retroinducción son equilibrios de 
perfección en el subjuego, pero no todos los equilibrios de perfección en el 
subjuego se pueden hallar mediante retroinducción. 


Aplicación: La guerra en Yugoslavia 

A continuación se analiza un juego en forma extensiva que ayuda a entender 
el surgimiento de la violencia en el proceso de desintegración de Yugoslavia 
(Fearon 1998). En concreto, el modelo de James Fearon intenta dar las claves 
del enfrentamiento que tuvo lugar entre serbios y croatas a raíz de la declara¬ 
ción de independencia de Croacia con respecto a la federación yugoslava. 
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En el análisis de los conflictos étnicos, se recurre con frecuencia a la cul¬ 
tura y la historia como principales factores explicativos. Así, se supone que 
la violencia surge como consecuencia de odios ancestrales, de agravios acu¬ 
mulados, o de una tradición larga de luchas entre grupos. Fearon rechaza de 
plano este tipo de explicaciones, pues lo que se observa a lo largo del tiempo 
no es un enfrentamiento permanente, sino más bien una sucesión de perio¬ 
dos de lucha y otros de convivencia. Por ejemplo, durante la existencia de la 
Unión Soviética, nunca hubo violencia étnica en los países del Este de Euro¬ 
pa. Si se intercalan periodos de paz y de violencia, la presencia de factores 
que no varían en el tiempo como los odios ancestrales no pueden dar cuenta 
del paso de la paz a la violencia y viceversa. 

En el modelo que se presenta en esta sección, la clave reside en la credibi¬ 
lidad de las promesas que realizan las partes. Puesto que la guerra yugoslava 
es extremadamente compleja, el modelo de Fearon aborda tan sólo una de 
sus dimensiones, la del conflicto entre Serbia y Croacia. Cuando Croacia 
anuncia su intención de independizarse, se plantea de inmediato un proble¬ 
ma grave acerca del futuro que aguarda a la minoría serbia en esta repúbli¬ 
ca. Para distinguir a los grupos, llamaremos M al grupo mayoritario en Cro¬ 
acia, es decir, la mayoría croata, y m a la minoría serbia, concentrada en la 
región croata de Krajina. El problema que se plantea entonces es el siguien¬ 
te: m no puede creerse la promesa de M de que va a respetar los derechos de 
la minoría, pues por muchas promesas que haga M, no hay nada que le impi¬ 
da restringir los derechos de los miembros de m una vez que controla el po¬ 
der. La mayoría croata no tenía forma de garantizar a la minoría serbia que 
en un futuro Estado independiente iba a respetar sus derechos. Por otro 
lado, Croacia decidió avanzar por la vía independentista porque, en cuanto 
minoría dentro de Yugoslavia, no podía creer que una Serbia todopoderosa y 
nacionalista fuera a respetar sus derechos. 

En términos más técnicos, el conflicto deriva de la incapacidad de la ma¬ 
yoría croata para realizar un compromiso (commitment) que haga creíble a 
la minoría que sus derechos van a ser respetados. La idea de 'compromiso" 
la desarrolló por primera vez Thomas Schelling en su libro clásico The Stra- 
tegy of Conflict (1960). Schelling, al analizar los problemas de credibilidad, 
llegó antes que Selten a las mismas ideas que luego éste sistematizaría en 
su concepto de equilibrio de perfección en el subjuego. En el capítulo ante¬ 
rior se mencionó un caso de compromiso: al ilustrar el juego del Gallina 
con los coches que corren uno contra el otro, se explicó que había dos 
equilibrios asimétricos, y que el equilibrio finalmente seleccionado depen¬ 
dería de cuál de los dos conductores consiguiese hacer creíble al contrario 
su promesa de no desviarse de su ruta. Una técnica de compromiso consis¬ 
te en este caso en arrancar el volante y arrojarlo visiblemente, para que el 
otro comprenda que su rival a partir de ese momento no puede desviarse. 
En un contexto de negociación, siempre que una de las partes lance un or¬ 
dago que resulte creíble, el intercambio de ofertas y contraofertas queda 
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reemplazado por un ultimátum. Desde este punto de vista, un compromiso 
se puede definir en términos precisos como una manipulación del conjun¬ 
to de alternativas que permite al agente conseguir un resultado inalcanza¬ 
ble en ausencia del compromiso. “Manipulación” aquí significa dos cosas: 
o bien que el agente restringe algunas de sus alternativas disponibles, o 
bien que se impone a sí mismo costes sobre algunas de esas alternativas 
(Sánchez-Cuenca 1998: 80-81). Cuando Hernán Cortés en la conquista de 
México quemó sus naves, restringió una de sus alternativas, precisamente 
la retirada. Cuando alguien anuncia públicamente que va a hacer algo, se 
autoimpone costes, pues si luego fracasa su reputación queda en entredicho. 
Si un primer ministro anuncia ante toda la nación que no se va a volver a 
presentar a las elecciones, es más probable que se vea obligado a terminar 
haciéndolo aunque no le apetezca que si sólo se lo anuncia a sus más inme¬ 
diatos colaboradores. En el primer caso, si reniega, queda ante todo el mundo 
como un embustero. 

Pues bien, Fearon plantea en su modelo que los serbios decidieron recu¬ 
rrir a la violencia por la incapacidad de los croatas de realizar un compromi¬ 
so que garantizara a la minoría que sus derechos serían respetados. Veámos- 
lo con mayor detalle. 

Sea B una variable que mide los beneficios políticos y económicos de que 
los dos grupos del territorio que busca la independencia convivan. Esos be¬ 
neficios se los pueden repartir de cualquier manera entre los dos grupos. En 
concreto, representaremos con b M lo que se lleva la mayoría y con b m lo que 
obtiene la minoría. El cuadro 3.12 presenta el árbol del juego en forma ex¬ 
tensiva. El primer movimiento corresponde a la minoría serbia, m, que ha de 
tomar una decisión con respecto al anuncio de creación de un nuevo Estado 
croata: puede luchar contra su inclusión en el nuevo Estado (estrategia /) o 
puede aceptar dicha inclusión (estrategia a). Si decide luchar, se inicia una 
guerra civil, cuyo resultado decide Naturaleza: con probabilidad p { gana M y 
con probabilidad 1 - p x gana m. Si decide entrar en el Estado, entonces M 
hace una propuesta a para repartirse B entre M y m: a representa la propor¬ 
ción de B que se queda M (a m le resta, por tanto, la proporción 1 - a ). Nóte¬ 
se que esta jugada de M supone que M tiene un continuo de estrategias: esto 
lo representamos en el juego mediante la recta a que conecta los dos nodos 
de la estrategia de la mayoría (véase el cuadro 3.12). Una vez que M hace su 
propuesta de reparto, m tiene que decidir si acepta la propuesta o si lucha 
por salirse del Estado. Si decide luchar, de nuevo se desemboca en una gue¬ 
rra civil, cuyo resultado vuelve a determinar probabilísticamente Naturaleza, 
sólo que ahora la probabilidad de que la guerra civil la gane M es p 2 y se va a 
considerar que p 2 > p v pues una vez que M controla el aparato del nuevo Es¬ 
tado, tiene más poder y es más probable que venza en la guerra. La guerra 
tiene unos costes, que no varían con el periodo en el que ésta se produzca (lo 
que varían son las probabilidades de victoria de las partes). Esos costes los 
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CUADRO 3.12 

EL JUEGO DE FEARON (1998) SOBRE VIOLENCIA ÉTNICA 



(0 c m , B c M ) 


fbm c m> &M 


representamos como c M y c m con respecto a la mayoría y la minoría respecti¬ 
vamente. 

Para analizar el juego, conviene calcular primero la utilidad esperada de 
las dos loterías que aparecen. Para la minoría: 

UE {N,)-p,(0~c ) + (1 -p.)(b -c ) = - p.c +b -c -pb +p,c = 

m v l / r]V v V a rjA m m J r \ m m m ^ I m 1 \ m 

= (l- P¡ )b m -c m 

UE m (N 2 ) = p 2 (0 - c m ) + (1 -p 2 ){b m - cj = -p 2 c m + b m - c m -p 2 b m + p 2 c m = 

= (1 "P 2 ) b m~ c m 

Como p 2 > p v se sigue inmediatamente que la minoría prefiere hacer la 
guerra civil al principio que al final, es decir, UE m (N > UE m (N 2 ). 

Con respecto a la mayoría, el resultado es justo el inverso: 


UEjN^pJB-cJ + (1 - Pl )(b M -c u ) = P¡ B + (1 - Pl )b M -c M 
UE J N l) = Pl( B - C m) + d -P2W M - C m) = Pl B + (1 -P2) b M ~ C M 

De nuevo, como p 2 > p v resulta que la mayoría prefiere hacer la guerra al 
final que al principio, es decir, UE M (N 2 ) > UE M (N j). 

Para calcular el equilibrio de perfección en el subjuego, procedemos por 
retroinducción. Si UE m (N 2 ) < 0, entonces m se conformará con cualquier 
cosa e incluso si M ofrece a = 1, m aceptará ese resultado antes que ir a la 
guerra. Por el contrario, si UE m (N 2 ) > 0, M ofrecerá el a más alto que permite 
que m decida no ir a la guerra. En concreto, M ofrecerá una proporción a* 
que satisfaga 


( 1 -«*».(! -P 2 )b m -c m 
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suponiendo en tal caso que m acepta la oferta. Ese valor de a* es: 

B + c m -(l-p) b m 

a = - 

B 


Ahora bien, si lo que m gana aceptando la oferta es justamente (1 - p 2 ) b m - c m 
(la utilidad esperada de hacer la guerra civil una vez que m ha entrado en 
el nuevo Estado) y resulta que hemos visto que m prefiere hacer la guerra 
civil antes de entrar en el Estado que después de entrar en el Estado 
(UEJÍN^ > UE m (N 2 )), es evidente que en la primera ronda del juego, m deci¬ 
de luchar. La guerra civil se vuelve inevitable. El equilibrio de perfección en 
el subjuego por tanto se puede formular así, especificando primero las estra¬ 
tegias de m y luego las de M: 

(Luchar en la primera jugada, aceptar a* en la segunda jugada; ofrecer a*.) 

Recuérdese los valores de a *: 



lsi(l-p 2 ) b m -c m < 0 


b ,n 


B 


si(l-p 2 ) b m -c m >0 


En este contexto, la única manera de evitar la guerra civil sería que M 
prometiera hacer una oferta superior, a** < a *, que indujera ama decidir 
entrar en el Estado en la primera ronda. El problema es que esa promesa no 
sería creíble, pues m entendería que una vez dentro del Estado, M haría la 
oferta a *, que es menos generosa, y m se vería obligada a aceptarla. En la 
medida en que M no puede hacer un compromiso creíble al inicio del juego 
de que si m entra, M luego hará una oferta a** en lugar de la oferta a*, m de¬ 
sencadena la guerra civil en la primera jugada. 


Aplicación: La política monetaria y la independencia 
del banco central 

Aunque hasta el momento se ha representado mediante un árbol de decisión 
la estructura de los juegos en forma extensiva, lo más habitual en este tipo 
de juegos es que el árbol no se represente. Más bien, se describe la secuencia 
de movimientos y a continuación se analiza el juego aplicando el método de 
la retroinducción, como en el ejemplo que a continuación se expone, sobre 
los problemas de “inconsistencia temporal” en la política monetaria. La in¬ 
consistencia temporal (Kydland y Prescott 1977) no es sino otro nombre 
para referirse a los problemas de credibilidad que surgen en ciertas prome- 
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sas. Presento a continuación una versión muy simplificada del modelo origi¬ 
nal de Barro y Gordon (1973). 

Hay dos actores en este juego. Por un lado, un Gobierno que tiene prefe¬ 
rencias benevolentes, es decir, que persigue la maximización del bienestar 
social. Por el otro lado, se encuentran los agentes económicos que toman de¬ 
cisiones en el mercado. Los agentes económicos, en este juego, sólo intervie¬ 
nen formándose expectativas. Aunque son muchos, los asimilaremos a un 
actor colectivo. 

La economía en la que se mueven los agentes económicos y el Gobierno 
se caracteriza por sufrir un problema de extemalidades que genera paro. Por 
ejemplo, puede que los salarios sean demasiado elevados, o que haya im¬ 
puestos excesivos sobre el trabajo. El Gobierno, como quiere conseguir el 
mayor bienestar social posible, interviene con el propósito de reducir 
el paro. Para ello, introduce inflación por sorpresa aumentando la masa mo¬ 
netaria. Esta inflación, en el corto plazo, reduce los salarios reales, estimu¬ 
lándose así la creación de empleo. 

Para formalizar las estrategias de los jugadores, se define así la función 
de utilidad Z del Gobierno: 


Z — b ( 77 — 77*) — — 7T 2 a, b > 0 
2 

La tasa de inflación real es ir> la inflación esperada por los agentes econó¬ 
micos es 7 f; b es un parámetro que regula los beneficios que se consiguen 
con la inflación no esperada (la diferencia entre la real y la esperada); y a 
mide la sensibilidad del Gobierno a la inflación. Cuanto mayor es b, mayores 
beneficios produce la inflación por sorpresa; y cuanto mayor a, más impor¬ 
tancia se atribuye a la inflación. Esta función de utilidad puede entenderse 
del siguiente modo: el primer término son los beneficios en términos de 
creación de empleo, mientras que el segundo son los costes que tiene la crea¬ 
ción de empleo en términos de inflación. 

Cuando el Gobierno actúa discrecionalmente, sin limitaciones de ningún 
tipo, intenta maximizar el beneficio social. Para saber cuál será su elección, 
calculamos las condiciones de primer orden (derivamos la función de utili¬ 
dad con respecto a ir e igualamos a 0): 

La tasa inflación i r* que satisface esta igualdad es 7t* = bla. Puesto que la se¬ 
gunda derivada de la función es negativa (Z" = -a), ir* es un máximo. A esta tasa 
de inflación la vamos a llamar ir d , para que quede claro que se trata de la infla¬ 
ción que corresponde a una decisión discrecional de un Gobierno benevolente. 
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El problema que se plantea ahora es el siguiente. Si los agentes económi¬ 
cos tienen expectativas racionales, serán capaces de anticipar la decisión del 
Gobierno y por lo tanto la inflación no les pillará por sorpresa. Es decir, los 
agentes económicos conocen la función de utilidad del Gobierno y entienden 
por tanto que éste tiene incentivos para introducir inflación por sorpresa. De 
ahí que K e = k. Ahora bien, si se sustituye en la función de utilidad del Go¬ 
bierno el valor 7t* = bla y tenemos en cuenta las expectativas racionales de 
los agentes, lo que nos queda es 


z d = b ) - (y) *5 = - (y) 



V_ 

2a 


El resultado es negativo. La política discrecional, por lo tanto, genera 
costes por la capacidad de los agentes de adelantarse a la inflación por sor¬ 
presa. Si, en cambio, el Gobierno decidiera seguir una regla que le forzara a 
perseguir una inflación 0, los agentes económicos anticiparían el resultado 
de la regla y tendríamos n r = if = 0 , donde n r representa la tasa de inflación 
que el Gobierno produce si sigue la regla. En este caso, es evidente que se 
evitan los costes anteriores, pues tenemos 

z r = o 

Por tanto, si el Gobierno sigue la regla, el resultado es mejor que si actúa 
discrecionalmente. La dificultad estriba en que si los agentes creen en la re¬ 
gla, el Gobierno tiene entonces incentivos para desviarse e introducir infla¬ 
ción por sorpresa. De acuerdo con lo que hemos visto anteriormente, el Go¬ 
bierno se desviaría introduciendo una inflación n t - b/a, donde el subíndice t 
de K t representa la "tentación" de romper la regla. Pero como los agentes son 
racionales, anticiparán la actuación del Gobierno y por lo tanto volveremos 
otra vez a los beneficios negativos. 

Con otras palabras, la regla que anuncia el Gobierno no es creíble (no es 
un equilibrio de perfección en el subjuego) porque el Gobierno tiene incenti¬ 
vos para romperla y los agentes económicos lo saben. En consecuencia, sube 
la inflación sin que se reduzca el paro, con lo que la sociedad acaba en una 
situación subóptima. Para salir de esta trampa, los Gobiernos delegan la po¬ 
lítica monetaria a un banco central independiente cuyo principal objetivo es 
contener la inflación. De este modo, el Gobierno se ata las manos, pues eli¬ 
mina de sus opciones la posibilidad de introducir inflación por sorpresa en 
el corto plazo para reducir la tasa de paro. Nótese que este problema de in¬ 
consistencia temporal o falta de credibilidad de las promesas ocurre incluso 
si las preferencias del Gobierno son benevolentes, es decir, incluso si el Go¬ 
bierno se preocupa realmente por el bienestar de la sociedad. 
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Los límites de la retroinducción y la perfección 
en el subjuego 

Hay ciertos juegos en los que las personas se alejan notablemente de las pre¬ 
dicciones teóricas a las que se llega aplicando el criterio de retroinducción o 
el concepto de equilibrio de perfección en el subjuego. De la misma manera 
que en el capítulo 2 se vio que en algunos casos el criterio de dominación y 
los equilibrios de Nash no coinciden con la manera lógica o natural de jugar 
un juego, también con el concepto de equilibrio de perfección en el subjuego 
se puede mostrar algo similar. 

En este sentido, el juego mejor conocido es el del Ciempiés. Veamos pri¬ 
mero una versión reducida de este juego, según aparece en el cuadro 3.13. 
Comienza jugando Jl, que puede acabar inmediatamente con el juego jugan¬ 
do D, o seguir adelante, eligiendo A. Si elige A, interviene J2, que puede jugar 
hacia abajo, d , o seguir adelante, a. La aplicación de la retroinducción lleva a 
una conclusión inmediata: J2, si llega a mover, elegirá d, pues con d obtiene 
3 y con a 2. Jl, sabiendo esto, juega D y por lo cual Jl recibe 1 y J2 0. Sin em¬ 
bargo, los dos podrían haber estado mucho mejor jugando ambos adelante, 
pues en ese caso cada uno habría sacado 2. Jl es racional jugando D porque 
sabe que de otra manera conseguirá 0, pues no puede creerse la promesa de 
J2 de que éste va a jugar a cuando le toque (dicha promesa no es creíble). 


CUADRO 3.13 

UNA VERSIÓN REDUCIDA DEL JUEGO DEL CIEMPIÉS 


Jl A Jl a (2,2) 


□ 

□ 

D 

d * 


(1,0) (0,3) 


Hasta aquí, todo parece lógico. Pero veamos qué sucede si alargamos el 
juego y en lugar de dos jugadas representamos cien (de ahí el nombre de 
Ciempiés), como sucede en el cuadro 3.14. A pesar de que el juego sea más 
largo y de que las ganancias potenciales al final del juego sean mucho mayo¬ 
res, la conclusión a la que conduce la retroinducción (o la perfección en el 
subjuego) sigue siendo la misma: en la primera jugada, Jl elige D y el juego 
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se acaba. J1 anticipa que en la ronda última J2 elegirá d, no a. J2 anticipa 
que en la ronda penúltima J1 elegirá D, no A, y así sucesivamente. Si se lleva 
el razonamiento hasta el final, no hay escapatoria: el juego no se desarrolla 
porque J1 lo impide en su primera jugada. 


CUADRO 3.14 

EL JUEGO DEL CIEMPIÉS 

J 1 A] J2 C?2 di Agy J 2 8gg J 1 Agg J2 d-\ QO 


J 

□ -^. 

-1 

J 

J 

J 

D, 

CNI 

“O 

D 97 

00 

D 99 

^100 


(1.0) (0,3) {98,99) (97, 100) (99,99) (98, 101) 


Casi nadie queda satisfecho con esta predicción del juego. Parece haber 
algo absurdo en la imposibilidad de coordinación por parte de los actores. 
De hecho, en los experimentos de laboratorio con este juego y múltiples va¬ 
riantes del mismo, se observa sistemáticamente que los agentes, habiendo 
entendido la estructura del juego, no eligen la estrategia de ir hacia abajo 
hasta muy avanzado el juego. ¿Quiere esto decir que los agentes son irracio¬ 
nales o que la lógica de la retroinducción no refleja adecuadamente la ra¬ 
cionalidad? 

En este punto surgen diversos problemas metodológicos y filosóficos. Su¬ 
póngase que a los sujetos en el laboratorio se les comunica que sus rivales no 
son humanos, sino ordenadores programados para maximizar sus pagos de 
forma mecánica. Es muy probable que en esas circunstancias, cuando J1 es 
humano y J2 una máquina, J1 comience haciendo D e impidiendo que el jue¬ 
go avance, pues J1 está seguro de que la máquina, en el nodo siguiente, va a 
elegir d. En cambio, cuando tanto J1 como J2 son humanos, la tentación de 
probar si el rival está dispuesto a colaborar durante algunas rondas y de esta 
manera conseguir mejores pagos para los dos es muy fuerte. Algunos exper¬ 
tos en teoría de juegos modelizan esta idea de forma un tanto extrema: con¬ 
sideran que el juego nunca tiene información completa, que cada jugador 
sospecha que hay una pequeña probabilidad de que su rival no esté en sus 
cabales y elija irracionalmente continuar el juego en lugar de detenerlo 
(Kreps 1990c: 77-82). Dada esta sospecha sobre la irracionalidad de su rival, 
si J2 observa que J1 comienza jugando A, puede jugar a creyendo que J1 es 
irracional, con la expectativa de que J1 va a seguir jugando A en el futuro. Lo 
interesante es que incluso si J1 no es irracional, puede que le convenga 
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hacerse pasar por tal (según se explica con más detalle al final del capítulo 
5), para poder continuar de este modo con el juego y garantizar ganancias 
mayores. 

Esta reconstrucción del juego del Ciempiés resulta un poco forzada. Si 
las personas colaboran en este juego no es porque sospechen que el rival 
puede ser irracional, sino porque están convencidos de que la racionalidad 
consiste en no desperdiciar la oportunidad de aumentar las ganancias en un 
juego de esta naturaleza. Parece que cuando J1 empieza jugando A en lugar 
de D, J2 entiende la “señal”, entiende que J1 está comunicando que no le pa¬ 
rece razonable la solución de perfección en el subjuego y que por tanto está 
dispuesto a mantener durante un cierto número de rondas una cadena de 
cooperación condicional, por la que J1 juega A a cambio de que J2 vaya ju¬ 
gando también a (Rowe 1989; 44-57). El problema está en que la teoría de 
juegos no ha sido capaz hasta el momento de dar cuenta de este tipo de ra¬ 
zonamientos de los agentes. 

En suma, el procedimiento de la retroinducción, o en general el equili¬ 
brio de perfección en el subjuego, supone un avance notable con respecto a 
la indefinición del equilibrio de Nash acerca de qué cuenta como forma ra¬ 
zonable de jugar un juego, eliminando del equilibrio propuesto todas aque¬ 
llas estrategias basadas en promesas o amenazas increíbles. Con todo, esta 
noción más exigente de equilibrio no funciona siempre de acuerdo con lo 
que el sentido común o nuestras intuiciones más básicas sobre la acción ra¬ 
cional establecen. El criterio de eliminar repetidamente estrategias domina¬ 
das puede llevar a conclusiones poco plausibles, como se ha visto en el caso 
del Ciempiés, lo que demuestra que esta noción de equilibrio no agota o no 
cubre todo lo que entendemos por la racionalidad de la acción. 


4 

Juegos repetidos 


La naturaleza de los juegos repetidos 

Hasta el momento se han estudiado juegos estáticos y juegos dinámicos. Los 
primeros corresponden a los juegos en forma normal, en los que las decisio¬ 
nes o bien se toman simultáneamente o bien se toman sin conocimiento de 
lo que han elegido los demás, mientras que los segundos corresponden a los 
juegos en forma extensiva. Los juegos en forma extensiva son dinámicos por¬ 
que hay una secuencia u orden de movimientos y por lo tanto podemos des¬ 
cribir la “historia" de los movimientos de los jugadores. 

Los juegos repetidos consisten en que una estructura de interacción es¬ 
tratégica se repita a lo largo del tiempo. Dicho de otra manera: un juego re¬ 
petido es un juego que se juega más de una vez. El juego que se repite puede 
ser en forma normal o en forma extensiva. En lenguaje técnico, al juego que 
se repite se le suele llamar el "juego de referencia" (stage garne). Por ejemplo, 
podemos considerar qué sucede si el Dilema del Prisionero (DP) se repite a 
lo largo del tiempo, es decir, si los actores en cada periodo de tiempo tienen 
que jugar un DP. El juego de referencia en cada fase o en cada etapa es el 
mismo, pero analizado globalmente, desde la perspectiva del tiempo, el equi¬ 
librio o los equilibrios del juego repetido no tienen por qué coincidir con los 
equilibrios del juego de referencia considerado en un único momento. 

Cuando un juego se repite, pueden surgir estrategias condicionales . En 
una estrategia condicional, un jugador elige una u otra estrategia en función 
de lo que su rival haya hecho hasta el momento. El jugador condiciona su 
estrategia a lo que haga el otro jugador. La existencia de estrategias condi¬ 
cionales es lo que produce la aparición de nuevos equilibrios con respecto al 
juego de referencia. En el juego repetido puede haber equilibrios distintos a 
los equilibrios del juego de referencia porque cabe elegir estrategias condi¬ 
cionales, cosa que es imposible en el juego de referencia jugado una sola vez. 

Al analizar los juegos repetidos, lo que se pretende es averiguar si hay 
equilibrios nuevos basados en estrategias condicionales que no existen en el 
juego de referencia. En este sentido, resulta fundamental la diferencia entre 
juegos repetidos un número determinado de veces y juegos repetidos indefí- 
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rudamente. Cuando hay un final conocido por ambos jugadores, la repeti¬ 
ción del juego apenas cambia nada, mientras que si no hay un final estable¬ 
cido, es decir, si el juego va a seguir jugándose siempre (o no se sabe cuándo 
va a acabar), los equilibrios del juego repetido son muy distintos con respec¬ 
to a los del juego de referencia. 

Hay multitud de situaciones en las que los actores interactúan de forma 
continuada a lo largo del tiempo: dos países que año tras año deciden sus ni¬ 
veles de apertura comercial (subiendo o bajando los aranceles), la interac¬ 
ción continuada entre un Estado y una organización terrorista, la relación 
que se establece a lo largo del tiempo entre un partido político y sus seguido¬ 
res o votantes, etcétera. Veamos este último caso. Se ha dicho una y otra vez, 
desde Anthony Downs (1957) en adelante, que la celebración periódica de 
elecciones ejerce una poderosa influencia sobre la acción de los partidos que 
llegan al Gobierno: una vez elegidos, los partidos y sus miembros podrían 
desentenderse de las promesas realizadas en campaña y dedicarse a enrique¬ 
cerse personalmente o a disfrutar de los múltiples privilegios que entraña el 
ejercicio del poder político. En las democracias no hay ningún mecanismo 
legal que obligue a los partidos a cumplir sus programas. Pero si actuaran al 
margen de sus programas, saben que comprometerían sus posibilidades fu¬ 
turas de ser reelegidos (los votantes los castigarían). Si quieren permanecer 
en el poder o seguir teniendo expectativas de volver a ganar las elecciones, 
los partidos no pueden desviarse demasiado de lo que prometieron a sus 
electores, pues éstos condicionarán su voto futuro a la gestión pasada de los 
partidos (Alesina 1988). 


El tiempo y el factor de descuento 

Cuando se hacen cálculos sobre los pagos que reciben los jugadores en cada 
periodo, ronda o repetición del juego, hay que tener en cuenta que el tiempo 
no pasa en balde. No siempre podemos suponer que la utilidad final que ob¬ 
tiene cada jugador sea simplemente la suma de los pagos conseguidos en 
cada periodo. Esto es así por dos razones, una técnica y otra sustantiva, que 
se complementan entre sí. 

La razón técnica es que si el juego se juega indefinidamente, la suma de 
los pagos en cada período da una cantidad infinita. Es decir, si en cada pe¬ 
riodo el jugador recibe un pago de 2 unidades de utilidad, el pago total en un 
juego de estas características es infinito. La utilidad será infinita positiva con 
cada estrategia que proporcione pagos mayores que 0, en cuyo caso no se 
puede distinguir entre los resultados que producen las distintas estrategias. 
Esto, evidentemente, no tiene sentido. 

La razón sustantiva se puede expresar de varias maneras, aunque la idea 
subyacente es siempre la misma: un pago futuro idéntico en cantidad a un 
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pago presente lo valoramos menos (nos proporciona menos utilidad) que 
el pago presente. Entre recibir un euro hoy y recibirlo dentro de un año, 
preferimos recibirlo hoy. Esto puede ser o bien porque el agente sea impa¬ 
ciente (tal vez porque realmente necesite ya ese dinero), o bien porque tema 
el futuro, que se presenta incierto (quizá tema que el juego pueda acabarse 
en el periodo siguiente). En el caso de que los pagos sean monetarios, la 
justificación está más clara todavía: si me dan el euro, lo puedo invertir 
para que me proporcione algún tipo de interés. En cambio, si el euro lo re¬ 
cibo al cabo de un año, durante el año de espera he dejado de ganar el bene¬ 
ficio que podría haber conseguido de haber dispuesto de ese euro desde el 
comienzo. 

A fin de entender cómo se produce esta pérdida en valor presente de un 
pago futuro conforme el pago se aleja en el tiempo, suponemos que el pago 
es monetario. De esta manera, podemos ser más precisos, introduciendo la 
tasa de interés. Sea una tasa de interés, r, del 1%. Esto significa que si una 
persona hoy ingresa en el banco 100 euros, al cabo de un año tiene 101 
(101 = 100(1 + r), r = 0,01). Por tanto, esa persona no puede ser indiferente 
entre recibir 100 euros hoy y recibir 100 dentro de un año. Será indiferente 
más bien entre recibir hoy 100 euros y recibir dentro de un año 101 euros. 
La tasa de interés r la podemos entender más en general como tasa de des¬ 
cuento y se puede interpretar como la cantidad extra de una unidad de pago 
que necesito para compensar el retraso con el que recibo el pago. En el ejem¬ 
plo, la tasa de descuento sería de 0,01 euros por euro. 

Esta misma idea se puede reflejar de manera alternativa: en lugar de es¬ 
tablecer cuánto tendría que aumentar el pago futuro para que el agente 
fuera indiferente entre recibir el pago hoy y recibirlo en el próximo perio¬ 
do, podemos calcular cuánto valora el agente en el presente un pago futuro. 
Esto lo conseguimos mediante el factor de descuento 8 , que definimos como 

8 - ——. Así, un pago de 100 euros dentro de un periodo de un año valdría 
1 + r 

hoy 100 = 100*0,99 = 99 euros. El pago futuro, expresado en valor 

presente, sufre un descuento o una depreciación. Cuanto mayor sea la tasa 
de descuento, menor es el factor de descuento, lo que implica, dado que 8 va¬ 
ría entre 0 y 1, que más valor descontamos con el paso del tiempo. Si 8 está 
próximo a 1 (y r por tanto próximo a 0), como en el ejemplo que estamos 
usando, eso significa que el descuento es muy pequeño. Si 8 se aleja de 1 y se 
acerca hacia el 0, el agente descuenta mucho el futuro: es muy impaciente o 
su incertidumbre sobre el final del juego es muy alta. 

Aquí vamos a utilizar el factor de descuento 8, dejando a un lado la tasa 
de descuento. Lo que queda por resolver ahora es cómo se descuenta el valor 
para periodos más alejados en el tiempo que el periodo siguiente. Recuérde¬ 
se que el valor de 8 es el factor de descuento aplicado al periodo inmediato al 
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presente. Cuando se consideran varios (o infinitos) periodos futuros, hay que 
decidir la forma en la que se aplica 5. El supuesto que casi siempre se em¬ 
plea en la teoría de juegos es que el descuento es exponencial , de tal manera 
que el valor presente de un pago tt es 5°77 en t- 0, 8 1 tt en t=l, 8 2 tt en t=2, 8 3 tt 
en t =3 y así sucesivamente. Matemáticamente, el descuento exponencial 
para un periodo infinito se puede representar con respecto a un pago cual¬ 
quiera 77 así: 

oo 

5°77 + 5*77 + 8 2 7T + ... - ^5*7T 

í=0 

Esta suma no es infinita, sino que converge en una cantidad determina¬ 
da siempre que 0 < 8 < 1. Con ello se resuelve la dificultad técnica antes 
apuntada de que en un juego indefinido los pagos a lo largo del tiempo se 
vuelvan infinitos. Veamos por qué esto es así. Supongamos primero, para el 
caso más sencillo, que 77 = 1. En tal caso, la serie converge del siguiente 
modo: 


1 + S+& + 

1-5 


Se puede demostrar así: si 5 está acotado entre 0 y 1, en cada periodo su¬ 
cesivo, al ser elevado a un exponente cada vez mayor, se vuelve más peque¬ 
ño, con lo que cada nuevo término de la serie será más pequeño, garantizan¬ 
do la convergencia. Para determinar el valor concreto en que converge, 
supongamos por el momento que ese valor es 5. Sacando factor común en la 
serie, llegamos a la siguiente formulación: 

5 = 1 + 5 + 5 2 + 5 3 + ... = 1 + 5(1 + 5 + 5 2 + ...) = 1 + & 

Por tanto, si pasamos 8s a la izquierda restando y sacamos factor común: 


5(1 - 5) = 1 


Ahora sólo falta despejar 5 : 


5 = 


1 


1-5 


Si 77 es cualquier otra cantidad que no sea 1, entonces, aplicando la mis¬ 
ma lógica, la serie converge de esta forma: 


77 + 577 + 5 2 77 + 5 3 77 + 


77 


1-5 
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La demostración sigue los mismos pasos que la anterior. Por último, es 
conveniente conocer el siguiente caso especial, en el que la serie comienza 
no en el presente, sino en el primer periodo futuro: 

8rr + 8 2 tt + 8 3 tt + ... = ^ 7r 

1-8 


Una vez expuesta la idea del descuento exponencial del futuro, podemos 
pasar a analizar los juegos repetidos. 


Juegos repetidos n veces 

La teoría de los juegos repetidos n veces se basa en un resultado o proposi¬ 
ción básica. Si el juego de referencia que se repite tiene un único equilibrio 
de Nash, entonces el único equilibrio de Nash en el juego repetido es el equi¬ 
librio original del juego de referencia. Por tanto, la repetición del juego un 
número fijo de veces no altera el equilibrio original, no introduce cambio al¬ 
guno. Así, un DP repetido cinco veces se juega igual que un DP jugado una 
sola vez. No hay posibilidad de que surjan estrategias condicionales. 

La lógica que hay detrás de este resultado es la retroinducción. Situémo¬ 
nos en la última ronda o periodo del DP, en la quinta ronda. Es evidente que 
como el juego no va a continuar, la única elección racional consiste en elegir 
la estrategia dominante, “defraudar”. Los dos jugadores defraudan en la ron¬ 
da final. En la ronda final el DP se juega igual que si se jugara una sola vez. 
En la cuarta ronda, los jugadores son capaces de anticipar qué va a suceder 
en la última ronda, y sabiendo por tanto que el otro va a defraudar en la 
quinta ronda, entienden que lo mejor que pueden hacer en la cuarta ronda es 
defraudar también. No tiene sentido que se planteen cooperar en la cuarta 
ronda para condicionar la cooperación del rival en la siguiente ronda, pues 
cada uno sabe que el otro defraudará con seguridad en la ronda última, no 
teniendo ninguno incentivos para cooperar por mucho que el otro haya 
cooperado en el pasado. Pero este mismo razonamiento se puede trasladar a 
la tercera ronda. Ahora J1 y J2 saben que ambos van a defraudar en las ron¬ 
das cuarta y quinta, con lo que de nuevo deciden defraudar. Llegamos así 
hasta la primera ronda, en la que los dos jugadores defraudan. 

Es la expectativa de lo que va a ocurrir en la última ronda del juego repe¬ 
tido lo que arruina la posibilidad de que aparezca alguna forma de coopera¬ 
ción condicional entre los jugadores. Al sacar las consecuencias lógicas del 
conocimiento cierto de que en la última ronda los dos van a defraudar, los 
jugadores inician el juego en la primera ronda defraudando. Se trata del mis¬ 
mo argumento que se aplicaba en el caso del juego del Ciempiés. La conclu¬ 
sión es la misma ya se repita el juego dos veces o mil. Incluso cuando el 
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juego se juega durante mil periodos, es la certidumbre sobre lo que va a su¬ 
ceder en la ronda mil lo que impide que en las 999 rondas anteriores pueda 
haber alguna forma de cooperación condicional. 

Ahora bien, de la misma manera que en el caso del Ciempiés el criterio 
de retroinducción va demasiado lejos, pues en la práctica las personas apo¬ 
yan cadenas de cooperación durante buena parte del juego, en el caso del DP 
o de cualquier otro juego repetido n veces, también la predicción de la teoría 
se aleja mucho de lo que se observa experimentalmente. Se ha comprobado 
de forma sistemática que la gente está dispuesta a cooperar en un DP repeti¬ 
do n veces, no haciendo caso al argumento retroinductivo de que si se antici¬ 
pa que en la última ronda se va a defraudar, entonces no compensa cooperar 
antes (Rapoport y Chammah 1970). En el capítulo 5 se examina la forma 
en que la teoría de juegos se puede reconciliar con la realidad consideran¬ 
do que no hay información completa, es decir, que los jugadores no están 
completamente seguros acerca de la naturaleza del rival con el que se en¬ 
frentan. 

En cualquier caso, este resultado tan poco convincente sólo sirve si el jue¬ 
go de referencia que se repite n veces tiene un único equilibrio de Nash. Si el 
juego de referencia tiene equilibrios múltiples, pueden surgir estrategias 
condicionales, aunque a veces dan lugar a equilibrios poco razonables. 
Como se trata de una cuestión técnica, se recomienda la lectura de un traba¬ 
jo algo más avanzado (Gibbons 1992: 82-88). 


El Dilema del Prisionero repetido indefinidamente 

El DP es uno de los juegos que, como se vio en el capítulo 2, refleja el proble¬ 
ma de la cooperación. Este juego tiene la configuración de los pagos más 
desfavorable posible para la cooperación, pues la estrategia de defraudar do¬ 
mina fuertemente a la estrategia de cooperar. Hay muchas situaciones socia¬ 
les y políticas que quedan representadas por el DP. Si elegimos el DP no es 
sólo porque se dé con frecuencia, sino porque el análisis de lo que sucede 
cuando se repite contribuye a disipar en parte la sospecha de que hay algo 
paradójico o absurdo en la conclusión de que la racionalidad individual 
siempre obliga en un DP a sacrificar las ganancias colectivas por las perso¬ 
nales. Este aire de paradoja consiste en que al final los dos jugadores están 
peor que si no hubiesen actuado según los dictados de dicha racionalidad in¬ 
dividual. Sin embargo, la paradoja sólo se da cuando el DP no se repite. 

A fin de refrescar el problema, en el cuadro 4.1 se reproduce de nuevo el 
DP, definido como un orden de preferencias particular con relación al juego 
genérico de la cooperación. La estrategia D domina a C porque T > Ry P > S. 
En consecuencia, el único equilibrio de Nash es ( D , D). 


TEORÍA DE JUEGOS 


89 


CUADRO 4.1 

EL DILEMA DEL PRISIONERO 

J2 


C D 


C 

J1 

D 


R = recompensa 
T = tentación 
P = penalización 
S = “sucker” (hacer el primo) 

Orden de preferencias: T> R > P> S 


fí % R 

S, T 

r, s 

P, P 


Si el juego se repite indefinidamente, el DP pasa a tener infinitos equili¬ 
brios. En lugar de entrar en la demostración de este sorprendente resultado, 
examinamos simplemente algunos de los equilibrios posibles, centrándonos 
en uno especialmente interesante, el equilibrio basado en la estrategia toma- 
y-daca (o tal-para-cual, en inglés tit-for-tat). 

En primer lugar, el equilibrio original del juego de referencia se mantiene 
como equilibrio del juego repetido indefinidamente. Esto implica que una 
posibilidad de jugar el juego consiste en que ambos defrauden permanente¬ 
mente. Si J1 espera que J2 responda a la cooperación defraudando, y J2 es¬ 
pera lo mismo de J1, ninguno de los dos tiene razones para cooperar: sus ex¬ 
pectativas se refuerzan mutuamente y hacen que defraudar sea la respuesta 
óptima frente a la elección de defraudar del otro. Los pagos esperados de 
ambos jugadores en este equilibrio son 


P+8P+8 2 P+ 8 3 P + ... = —L— 

1-5 


Resulta chocante que esto pueda ser un equilibrio, pues es evidente que si 
cooperasen entre sí podrían conseguir pagos más altos. Sin embargo, éste es 
el resultado más lógico si domina la desconfianza entre los jugadores. La 
combinación opuesta de estrategias, cooperar siempre, no es un equilibrio 
de Nash ni en el juego de referencia ni en el juego repetido indefinidamente. 
Si en la versión repetida J1 espera que J2 vaya a cooperar siempre, la mejor 
respuesta posible de J1 a esa expectativa no es cooperar también, sino 
defraudar. Si los dos jugadores jugaran la estrategia de cooperar siempre, 


el pago esperado de cada uno sería 


R 

1-5 


Pero cada uno podría estar mejor 
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defraudando siempre si el otro jugara esta estrategia de cooperar siempre. En 
concreto, si J1 defraudara siempre mientras que J2 coopera siempre, J1 ob- 
T T R 

tendría-, siendo->-, puesto que hemos partido de un orden 

1—§ 1 — 5 1 — 5 

de preferencias en el que T > R. Por tanto, J1 tendría un incentivo para des¬ 
viarse del par de estrategias cooperar siempre, con lo que cooperar siempre 
no puede ser un equilibrio de Nash. 

Tanto las estrategias de defraudar siempre como cooperar siempre son 
incondicionales. La acción del jugador no depende de lo que haya hecho 
hasta el momento el rival. La primera estrategia, defraudar siempre, es un 
equilibrio, mientras que lq segunda, cooperar siempre, no lo es. Aparte de es¬ 
tas dos estrategias incondicionales, hay una infinidad de estrategias condi¬ 
cionales posibles. Son estas estrategias condicionales las que expanden el es¬ 
pacio de equilibrios posibles. 

Veamos algunos ejemplos de estrategias condicionales. Sea la estrategia 
“desoladora” (grim-trigger strategy) que consiste en empezar cooperando, se¬ 
guir cooperando siempre que el rival coopere y, en caso de que en algún mo¬ 
mento el rival defraude, defraudar siempre a partir de ese momento. Para 
determinar si esta estrategia, jugada por ambos jugadores, constituye un 
equilibrio, hay que averiguar si dados los pagos que produce, alguno de los 
jugadores tendría alguna razón para desviarse de la misma. Si los dos juga¬ 
dores juegan la estrategia desoladora, ambos comienzan cooperando y si¬ 
guen cooperando indefinidamente, sin necesidad de que tengan que poner 
en práctica el castigo que se contiene en su estrategia (defraudar siempre en 
caso de que el rival defraude en una ocasión). Los pagos que obtendrían 
R 

serían por tanto-. Para ver si alguno de los jugadores tiene incentivos 

1 — 5 

para desviarse de su estrategia, hay que comparar el pago que obtendría des¬ 
viándose de la misma con el pago que acabamos de ver que obtendría si 
siguiera jugando la estrategia desoladora. Supongamos que J1 en un periodo 
cualquiera t defrauda. En t, J1 recibe el pago máximo, T, el pago de la tenta¬ 
ción, pero a partir de ese momento, a partir de t + 1, sabe que J2 va a defrau¬ 
dar siempre y por lo tanto lo mejor que puede hacer J1 a partir de t + 1 es 
defraudar siempre. Esquemáticamente, la historia del juego se representa en 
el cuadro 4.2. 

Ahora puede especificarse bajo qué condiciones a J1 no le compensa des¬ 
viarse de la estrategia desoladora. En concreto, no le compensa cuando el 
pago esperado de continuar jugando la estrategia desoladora es superior 
al pago esperado de desviarse una vez, es decir cuando: 


R 

1-5 


>T + 


8P 

1-5 
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CUADRO 4.2 

UNA DESVIACIÓN DE J1 EN í DE LA ESTRATEGIA DESOLADORA 



t~ 1 

t 

t -h 1 

t + 2 

Pago esperado a partir de t 

J1 

C 

D 

D 

D 

T+ 8P+ &P+ .. 

. = T+ SP 

1 - 8 

J2 

C 

c 

D 

D 

S+ 8P+ 8 2 P+ .. 

. = s+ 5P 

1 - 8 


De lo que se trata es de despejar 8 en esta ecuación. Esto lo podemos ha¬ 
cer de la siguiente manera: multiplicamos a ambos lados por (1-8) para 
libramos de las fracciones y luego ponemos en un lado todos los términos 
que multiplican a 8 y en otro todos los términos que están libres de 8: 

R > T(1 - 8) + 8P 
R> T - 8T + 8P 
8T - 8P > T-R 
8(T-P ) > T~R 


Como el juego es simétrico y consideramos, por simplicidad, que ambos ju¬ 
gadores tienen igual factor de descuento, podemos concluir que siempre que 

T __ R 

los jugadores sean suficientemente pacientes, es decir, siempre que 8 > ———, 

la estrategia desoladora, que es una estrategia condicional, configura un 
equilibrio. Lo que esto significa es que si cada uno de los jugadores juega la 
estrategia desoladora y su factor de descuento es superior a la cantidad indi¬ 
cada, ninguno de los dos tiene incentivos para desviarse. 

La estrategia desoladora es sólo una de las infinitas estrategias condicio¬ 
nales posibles. Hay innumerables variaciones de la estrategia desoladora. Por 
ejemplo, empezar cooperando, seguir cooperando mientras el otro vaya 
cooperando, y en caso de que el otro defraude una vez, castigarle a partir 
de entonces defraudando en las 1.423 rondas siguientes. De nuevo, si el factor de 
descuento satisface cierta condición, esa estrategia puede ser un equilibrio. 

Entre todas las variantes de la estrategia desoladora, hay una que destaca 
claramente, la estrategia toma-y-daca, identificada por primera vez por Ana¬ 
tol Rapoport. Esta estrategia se puede formular así: 
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(1) El jugador comienza cooperando en la primera ronda. 

(2) En todas las demás rondas, el jugador hace lo que hizo su rival en la 
ronda anterior. 

De esta forma, el jugador coopera en la ronda t si su rival cooperó en la 
ronda t - 1, y defrauda en t si su rival defraudó en t - 1. Supongamos que el 
rival, J2, defraudó en t - 1. Entonces, J1 defrauda en t . Si en t J2 coopera, J1 
coopera en t + 1; si J2 defrauda en t, J1 vuelve a defraudar en t + 1, y así su¬ 
cesivamente. 

¿Qué relación guarda toma-y-daca con la estrategia desoladora? Toma-y- 
daca es una variante de la estrategia desoladora porque, al igual que ésta, 
produce cooperación mientras el rival coopera, distinguiéndose en que el 
castigo que aplica cuando el rival defrauda es el más suave posible, defrau¬ 
dar en la siguiente ronda, mientras que con la estrategia desoladora el casti¬ 
go es el máximo posible, defraudar siempre. 

¿Bajo qué condiciones es un equilibrio que los dos jugadores jueguen la 
estrategia toma-y-daca? La respuesta es: cuando continuar jugando toma-y- 
daca sea mejor que desviarse de esta estrategia. A diferencia de lo que ocu¬ 
rría con la estrategia desoladora, ahora hay que ser más precisos acerca de 
lo que supone una desviación. Cabe imaginar dos desviaciones extremas: 
una que sea desviarse sólo en una ronda de toma-y-daca defraudando una 
vez después de que el rival haya cooperado en la ronda anterior y volviendo 
luego a la estrategia original; otra que sea desviarse para siempre, defrau¬ 
dando de forma permanente a partir de la primera desviación. Si se demues¬ 
tra que bajo ciertas condiciones toma-y-daca produce mejores resultados 
que cualquiera de estas dos desviaciones, es que toma-y-daca es un equili¬ 
brio. En rigor, habría que demostrar también que así como no compensa ni 
una ni infinitas desviaciones, tampoco compensa un número intermedio n 
de veces, 1 < n < «> (véase Morrow 1994: 265-266). 

Siguiendo el procedimiento del cuadro 4.2, comenzamos por la primera 
desviación, defraudar una sola vez cuando el rival ha cooperado en la ronda 
anterior, aceptar el castigo posterior del rival para poder restaurar la coope¬ 
ración, y volver a partir de ese momento a toma-y-daca. Supondremos que 
es J1 el que se desvía. En t - 1 los dos jugadores, coherentes con toma-y- 
daca, cooperan. Pero en t J1 juega D desviándose de toma-y-daca, mientras 
que J2 vuelve a cooperar en t : en consecuencia, en t J1 obtiene el pago T 
y J2 el pago S. En la ronda siguiente, t + 1, J1 coopera y recibe el castigo de 
J2, que defrauda: J1 obtiene S y J2 T. Es en t + 2 donde J1 admite cooperar 
(a pesar de que J2 ha defraudado en t + 1) para restablecer la cadena de 
cooperación condicional, manteniendo de ahí en adelante su cooperación. 
Nótese que J2 en ningún momento se desvía de toma-y-daca, pues como se 
observa en el cuadro 4.3 siempre hace lo que hizo su rival en la ronda ante¬ 
rior. 
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CUADRO 4,3 

UNA ÚNICA DESVIACIÓN DE J1 EN t DE TOMA-Y-DACA 



t~ 1 

t 

t+ 1 

t + 2 

t + 3 

Pago esperado a partir de t 

J1 

C 

D 

C 

c 

c 

T+ SS+ 3 2 fí+ S 3 R+ ... 

J2 

C 

c 

D 

c 

c 

S+ 8T+ &R+ 8 3 fí+ ... 


Cuando no hay desviación, es decir, cuando ambos jugadores mantienen 
la cooperación condicional producida por toma-y-daca, los pagos esperados 
a partir del momento t son: 

R + 8R + 8 2 R + 8 3 R + ... 

Hay que determinar cuándo esos pagos esperados son superiores a los 
pagos esperados correspondientes a una desviación, tal y como se describen 
en la fila de J1 del cuadro 4.3: 

T+ 8S + 8 2 R + 8 3 R + ... 

Pues bien, es evidente que: 

R + 8R + 8 2 R + 8 3 R + ... > T + SS + 8 2 R + 8 3 R + ... 


Cuando: 


R + 8R > T + SS 


El resto de ambas series es idéntico y podemos por tanto suprimirlo. En 
esta desigualdad podemos aislar el factor de descuento: 


S> 


T-R 

R-S 


Si se cumple esta desigualdad, ninguno de los dos jugadores tiene incen¬ 
tivos para desviarse una sola vez de toma-y-daca. 

Ahora hay que aplicar un razonamiento equivalente para el caso de una 
desviación permanente, en virtud de la cual J1 comienza a defraudar en t y 
no para ya de defraudar. La situación aparece representada en el cuadro 4.4. 
Ahora J1 no está dispuesto a restablecer la cooperación condicional y conti¬ 
núa defraudando, lo que provoca que J2, imitando el comportamiento de su 
rival en la ronda anterior, también defraude. 
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CUADRO 4.4 

UNA DESVIACIÓN PERMANENTE DE J1 DE TOMA-Y-DACA A PARTIR DE t 



f- 1 

t 

t+ 1 

t + 2 

t + 3 

Pago esperado a partir de t 

Jl 

C 

D 

D 

D 

D 

T+ SP+ 8?P+ 8 3 P+ .. 

. = T+ SP 

1 -5 

J2 

C 

c 

D 

D 

D 

S+ 8P+S?P+8 3 P+. 

.. = s+ 

1-5 


El pago esperado a partir de t de defraudar permanentemente es para Jl, 

8P 

según puede verse en el cuadro 4.4, T +-. Por otro lado, el pago espera- 

1—5 

do para Jl de mantenerse en toma-y-daca es el pago correspondiente a la 
cooperación mutua indefinida: 


R + 8R + S 2 R + 8 3 R + 


R 

1-8 


De lo que se trata es de averiguar bajo qué condiciones es verdad que este 
pago esperado es superior al pago esperado de desviarse para siempre a par¬ 
tir de t : 


R 


1-5 


> r + 


8P 

1-5 


De nuevo, lo que interesa es aislar el valor de 5. Seguimos el mismo pro¬ 
cedimiento que antes, comenzamos eliminando la naturaleza fracciona] de 
algunos elementos de la inecuación: 

R > T(1 - 5) + 8P 

Volvemos a distribuir términos y a agrupar en un lado todos los que con¬ 
tienen 5: 


8T-8P>T-R 

Ahora sacamos factor común en el lado izquierdo y despejamos 5, que¬ 
dando: 


5 > 


T~R 


T-P 
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Cuando se cumpla esta desigualdad, J1 está mejor siguiendo con toma-y- 
daca que desviándose permanentemente. 

Llegados a este punto, podemos poner juntas las dos condiciones para 
que toma-y-daca sea un equilibrio. Tiene que ser cierto a la vez que: 


8 > 


T-R 


R-S 


y 


8> 


T-R 


T~P 


Más formalmente, esto se puede expresar así: 


8 > max 


( T-R T-R \ 
\R-S } T-P) 


La clave de ambas condiciones es que los jugadores han de ser lo sufi¬ 
cientemente pacientes para poder valorar en mayor medida el mantenimien¬ 
to de la cooperación condicional a largo plazo que la obtención de un benefi¬ 
cio en el corto plazo a costa de engañar al rival y destruir por un tiempo o 
para siempre la posibilidad de restablecer la cadena de cooperación. Si los 
jugadores son pacientes, su factor de descuento es alto, resultando más fácil 
satisfacer las desigualdades anteriores. 

En cualquier caso, ¿qué tiene de especial toma-y-daca frente a otras es¬ 
trategias condicionales? Robert Axelrod, en su libro La evolución de la coope¬ 
ración (1984), realizó un torneo de liguilla entre estrategias para un DP repe¬ 
tido indefinidamente. Los participantes en la liguilla enviaban lo que creían 
que sería la mejor estrategia posible, la estrategia que maximizaría los pa¬ 
gos. Axelrod tradujo todas esas estrategias a un lenguaje de programación y 
puso a competir a cada estrategia contra todas las demás. Cada estrategia ju¬ 
gaba doscientas rondas del DP con cada una de las otras estrategias. La es¬ 
trategia ganadora fue precisamente toma-y-daca. De todas las estrategias 
propuestas, toma-y-daca era la más sencilla. Según Axelrod, las razones de 
este éxito inesperado de toma-y-daca se explican por algunas de las caracte¬ 
rísticas que tiene esta estrategia. Primero, es una estrategia decente, enten¬ 
diendo por decencia que comienza cooperando,* que no es la primera en de¬ 
fraudar. Segundo, es una estrategia indulgente, en el sentido de que reinicia 
la cooperación con relativa rapidez tras haber defraudado el rival. Tercero, 
es una estrategia vengativa, puesto que si su rival defrauda, no pasa por alto 
esa ofensa y defrauda también. Cuarto, es además una estrategia clara, cuyo 
funcionamiento es transparente y fácil de entender. Esta combinación de ca¬ 
racterísticas hicieron de toma-y-daca la estrategia ganadora en el torneo or¬ 
ganizado por Axelrod. 

No obstante, para que toma-y-daca tenga éxito es necesario que haya 
otras estrategias decentes. Toma-y-daca obtiene muy buenos resultados si se 
apoya en otras estrategias decentes con las que pueda establecer relaciones 


96 


CUADERNOS METODOLÓGICOS 34 


duraderas de cooperación condicional. En cambio, funciona peor frente a 
estrategias no decentes: por ejemplo, frente a una estrategia que comience 
defraudando y a continuación coopere salvo que el otro defraude, en cuyo 
caso defrauda para siempre, se produce una secuencia indefinida de defec¬ 
ciones mutuas, pues en la primera ronda toma-y-daca coopera y la otra de¬ 
frauda, en la segunda ronda toma-y-daca defrauda y la otra coopera, y a par¬ 
tir de ahí la otra ya defrauda siempre. 

Que toma-y-daca tenga propiedades tan atractivas no significa necesaria¬ 
mente que cuando los jugadores jueguen un DP vayan a seleccionar el equili¬ 
brio correspondiente a toma-y-daca. Al fin y al cabo, toma-y-daca es tan sólo 
un equilibrio posible dentro de un conjunto infinito de equilibrios. Sus pro¬ 
piedades hacen de toma-y-daca un punto focal, es decir, un candidato natu¬ 
ral a constituirse en el equilibrio seleccionado, pero eso no es garantía sufi¬ 
ciente para convencemos de que el equilibrio final se basará en toma-y-daca. 
Al fin y al cabo, no es evidente que todo jugador racional haya de ser cons¬ 
ciente de las características especiales de toma-y-daca. Por otra parte, cuan¬ 
do observamos casos reales de cooperación condicional exitosa, es difícil sa¬ 
ber qué estrategias están sosteniendo la cooperación. Nótese que cualquier 
variante de la estrategia desoladora, incluyendo a toma-y-daca y a la propia 
estrategia desoladora, produce cooperación condicional. La cooperación 
condicional es compatible o sostenible con múltiples estrategias posibles. 

Ante los resultados del análisis del DP repetido indefinidamente, podría 
pensarse que la presencia en muchas sociedades de un grado de cooperación 
elevado se debe al uso de estrategias condicionales. Sin embargo, estrategias 
como toma-y-daca sólo son un equilibrio cuando el DP lo juegan unas pocas 
personas. En cambio, las formas de cooperación colectiva en la sociedad, 
cuando se dan, suelen involucrar a un gran número de jugadores. Conforme 
aumenta el número de jugadores que interviene en un DP, las posibilidades 
de que surja cooperación condicional disminuyen rápidamente, por mucho 
que se repita el juego y por muy pacientes que sean los jugadores. Si el grupo 
es muy grande, el único equilibrio realista de un DP jugado entre todos los 
miembros del grupo consiste en que todos defrauden permanentemente. Lo 
mismo sucede, por cierto, si en lugar de conjeturar un DP con muchos juga¬ 
dores, nos imaginamos un conjunto grande de jugadores que en cada ronda 
se emparejan de dos en dos y cada pareja juega un DP. Conforme aumenta el 
tamaño del grupo, la probabilidad de volver a encontrarse con el mismo ju¬ 
gador disminuye, lo que equivale técnicamente a una reducción del factor de 
descuento, empeorando por tanto las condiciones para que surja la coopera¬ 
ción condicional (Calvert 1995). 
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El teorema popular 


Hasta el momento, hemos visto que cuando el DP se juega indefinidamente, 
surgen equilibrios de Nash múltiples (la estrategia desoladora y sus varian¬ 
tes). Se puede demostrar que la repetición indefinida afecta igual a todos los 
juegos, no sólo al DP. En concreto, el llamado "teorema popular" (the folk 
theorem) demuestra que los juegos repetidos indefinidamente tienen múlti¬ 
ples equilibrios. Aunque este teorema resulta del mayor interés, pues revela 
la enorme diferencia que hay entre los juegos jugados una vez y los jugados 
indefinidamente, en el fondo compromete la capacidad predictiva de la teo¬ 
ría. La teoría no puede aclarar cuál de los múltiples equilibrios van a selec¬ 
cionar los jugadores. 

Puesto que una exposición sistemática del teorema popular corresponde 
a un texto de teoría de juegos más avanzado, aquí sólo se presenta una ver¬ 
sión muy simplificada de dicho teorema. A pesar de que se introduce el teo¬ 
rema sin el aparato formal que usualmente le acompaña, esta sección es algo 
más abstracta que otras de este libro. El lector que no esté especialmente in¬ 
teresado en esta cuestión puede saltar directamente a las dos secciones últi¬ 
mas del capítulo, en las que se analizan modelos de juegos repetidos. 

Para llegar al teorema, es preciso, en primer lugar, introducir dos concep¬ 
tos nuevos: los pagos medios y los pagos factibles. El pago medio (average 
payoff) tt es el valor medio de una serie de pagos tt v 7 r 2 , 7 r 3 ,..., obtenidos a lo 


largo del tiempo. El valor presente de este pago es V = 


7 T 

TU 


. Si 


queremos 


expresar dicho valor presente en términos de los pagos en el juego estático 
de referencia (stage gante), basta simplemente con despejar con respecto a tt, 
es decir, 


7T=(l-5)V = (l-S)¿8 í - , ir, 

í= 1 

En cuanto al pago factible (feasible payoff), se trata de una combinación 
convexa o media ponderada de los pagos que corresponden a las estrategias 
puras del juego. Por ejemplo, sea el Dilema del Prisionero que se representa 
en el cuadro 2.16. Cabe representar los pagos de las diferentes combinacio¬ 
nes de estrategias según aparecen en el gráfico 4.1. 

Cualquier punto en el interior del área definida por los cuatro pagos es 
un pago factible. Así, el pago (1,8, 1,8) se puede obtener como una combina¬ 
ción convexa (o media ponderada) de los pagos asociados a las estrategias 
(C, C) y (D, D). En concreto, 

0,8(C, C) + 0,2(D, D) = 1,8. 
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GRÁFICO 4.1 

EL ÁREA DEFINIDA POR LOS PAGOS DEL DP DEL CUADRO 2.16 


Í2 

3 


2 


1 


ú 

J1 

El teorema popular se puede formular como sigue. Sean (e v e 2 ) los pagos 
medios del equilibrio de Nash en el juego de referencia. Sean a su vez (x y x 2 ) 
pagos factibles. Si > e.para todo i, y si 8 es suficientemente alto, cualquier 
combinación de estrategias que produce los pagos medios (x v x 2 ) es un equi¬ 
librio de Nash. 

La idea es la siguiente: se pueden construir equilibrios de Nash que pro¬ 
porcionen unos pagos factibles superiores a los pagos medios del equilibrio 
de Nash en el juego estático utilizando como estrategia de castigo dichos pa¬ 
gos medios. Los nuevos equilibrios se sostienen, por tanto, sobre la amenaza 
de volver al equilibrio del juego estático en caso de que uno de los jugadores 
se desvíe de su estrategia en el equilibrio que produce pagos superiores. Su¬ 
poniendo que el castigo se aplicará permanentemente, los jugadores han de 
calibrar si les interesa desviarse en una ocasión y a partir de ese momento 
recibir siempre los pagos asociados al equilibrio en el juego estático o si les 
trae a cuenta no desviarse de las estrategias que producen unos pagos supe¬ 
riores a los del equilibrio del juego estático. 

En el gráfico 4.1 el área sombreada corresponde a todos aquellos pagos 
factibles que producen a los dos jugadores mayor utilidad que el equilibrio 
en el juego de referencia. Tratándose de un Dilema del Prisionero, dicho 
equilibrio es (D, D) y produce unos pagos (1, 1). Cualquier combinación de 
estrategias que produzca más de una unidad de utilidad a cada uno de los 
dos jugadores es un equilibrio siempre y cuando el factor de descuento sea 
lo suficientemente alto. 
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Formalmente, la demostración procede del siguiente modo. Sea d { el 
pago medio de J1 de desviarse con respecto a la combinación de estrategias 
que produce los pagos (x Jt x 2 ). Por lo explicado en el teorema, es evidente 
que d x > x y > e y Si J1 se desvía de la combinación de estrategias que da lugar 
a {x v x 2 ), su utilidad a partir de ese momento es: 

de 

V = d + 8e r + 8 2 e . + ... = d . +--— 

111 1 1-5 

En cambio, si no se desvía obtiene obtiene x } en la ronda presente, siendo 
V el valor presente de lo que obtiene después cuando juega óptimamente. 
Por tanto, el valor presente es: 


V = x t + 8V 


Es decir. 


x, 

y-- 1 


1-5 


Por tanto, J1 no se desvía cuando: 


x. 8e. 

- > + - ; 

1-5 1 1-5 

x x >d x { 1 - 5) + 8e¿ 

8(d í -e l )>d 1 

d , - x t 

8> 


d l -e 1 


Si 5 > max 


d i~ x i 

d i~ e i 


d 2 -x 2 \ 

— -), cualquier combinación de estrategias que 

d 2 -e 2 J 

produzca pagos factibles superiores a los pagos del equilibrio de Nash en 
el juego de referencia constituye un equilibrio de Nash. Es la amenaza de 
castigar con volver para siempre a jugar según el equilibrio del juego 
de referencia lo que permite sostener los equilibrios múltiples del juego re¬ 
petido. 
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El modelo de negociación de Rubinstein 

En esta sección se analiza el modelo de negociación de Rubinstein como un 
juego repetido tres veces. El análisis de este modelo permite utilizar todo el 
instrumental analítico aprendido hasta el momento, tanto la idea de equili¬ 
brio de perfección en el subjuego como el descuento temporal de los juegos 
repetidos. 

En una negociación dos o más partes han de ponerse de acuerdo en 
cómo repartirse un bien. Supóngase que sólo hay dos negociadores. Corres¬ 
ponde a Nash el mérito de haber ofrecido por primera vez en 1950 una solu¬ 
ción a los problemas de negociación basada en la teoría de juegos (en este 
sentido, conviene no confundir la idea de equilibrio de Nash con la idea de 
solución negociadora de Nash). Nash estableció una serie de condiciones 
que toda propuesta de solución debe cumplir, demostrando axiomáticamen¬ 
te que su propuesta satisfacía dichas condiciones. Frente a esta solución 
axiomática, Ariel Rubinstein planteó en 1982 un modelo que no se basaba en 
condiciones ideales, sino que partía directamente de la racionalidad de los 
agentes y de su poder de negociación. En realidad, el propio Nash había 
planteado también de forma embrionaria una solución basada sólo en la ra¬ 
cionalidad, pero el desarrollo completo hubo de esperar hasta el trabajo de 
Rubinstein. El modelo de Rubinstein consiste en un juego repetido indefini¬ 
damente (véase Osborne y Rubinstein 1990: 29-49), aunque aquí se expone 
una versión simplificada en sólo tres periodos en la que se llega en lo esen¬ 
cial al mismo resultado. 

La solución de un problema de negociación depende del poder negocia¬ 
dor de las partes. Supongamos que lo que hay en juego es un euro. Dos per¬ 
sonas han de ponerse de acuerdo en cómo repartirse dicho euro: si no lo 
consiguen, las dos se quedan sin nada. Para Nash, el poder negociador que¬ 
da reflejado en la actitud hacia el riesgo de las partes. Cuanto mayor sea la 
necesidad de una de las partes de conseguir buenos resultados, más averso al 
riesgo es el agente, es decir, menos se arriesga a que haya un desacuerdo fi¬ 
nal y menos capacidad de amenaza tiene en el intercambio de ofertas y con¬ 
traofertas. Rubinstein parte del mismo supuesto, sólo que identifica el poder 
negociador con el factor de descuento de las partes. Cuanto más bajo sea el 
factor de descuento, es decir, cuanto más impaciente sea el agente, menos 
poder negociador tiene, pues más prisa tiene en conseguir un acuerdo, aun a 
costa de obtener un peor resultado posible. 

En el modelo hay dos jugadores, J1 y J2. Ahora se permite, a diferencia 
de lo que sucedía en modelos anteriores, que cada jugador tenga su propio 
factor de descuento. Así, hablaremos de Sj y S 2 con respecto a J1 y J2 res¬ 
pectivamente. Los periodos de negociación son tres. Cada periodo de nego¬ 
ciación se compone de dos partes, una oferta (x, 1 - x) y una respuesta a la 
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oferta, donde x es la parte que se lleva J1 y 1 - x es lo que se lleva J2. Si un 
jugador acepta la oferta de su rival, el juego termina. Si no la acepta, se 
pasa al periodo siguiente. J1 propone ofertas en los periodos impares y J2 
en los pares. Los pagos del juego corresponden a la oferta que finalmente 
se acepte (salvo que los actores no se pongan nunca de acuerdo, en cuyo 
caso cada uno obtiene 0). El valor en el presente de los pagos que se obtie¬ 
nen en el periodo t hay que descontarlo exponencialmente, de forma que 
una oferta ( x, 1 - x) aceptada en el periodo t vale, en términos presentes, 
( 3 *^( 1 -*)). 

El juego, así descrito, tiene múltiples equilibrios de Nash, la mayor parte 
de los cuales no tienen demasiado sentido. Por ejemplo, la siguiente combi¬ 
nación de estrategias es un equilibrio de Nash: 

(J1 siempre pide 1 y rechaza cualquier oferta inferior; J2 siempre ofrece 1 
y acepta cualquier oferta.) 

Este par de estrategias se traduce así en el presente contexto: J1 en la pri¬ 
mera ronda hace la oferta (1,0), por la cual J1 se queda con todo el euro y J2 
con nada, y J2 acepta, finalizando ahí el juego. Si J2 está convencido de que 
J1 rechaza cualquier otra cosa y J1 cree que J2 se conforma con cualquier 
oferta, cada estrategia es una respuesta óptima a la otra. 

Se pueden buscar equilibrios de Nash más rebuscados e igualmente im¬ 
plausibles. Véase, por ejemplo, la siguiente combinación de estrategias: 

(J1 pide 1 en el primer periodo, rechaza en el segundo cualquier oferta 
que no le dé 1, ofrece en el tercer periodo (0,5, 0,5); J2 rechaza en el primer 
periodo cualquier oferta que no le dé 1, pide 1 en el segundo periodo, acepta 
en el tercer periodo quedarse con 0,5.) 

Se trata de un equilibrio de Nash que en este caso forzaría a los jugadores 
a llegar al periodo tercero, pues en el primer periodo J2 rechaza la oferta de 
Jl, en el segundo J1 rechaza la oferta de J2, y en el tercero J2 acepta la oferta 
(0,5, 0,5) de Jl. Aun siendo esto un equilibrio de Nash, es absurdo, pues si 
los dos están dispuestos a conformarse en el tercer periodo con 0,5 euros, 
¿por qué esperar hasta el tercer periodo, asumiendo el coste de la deprecia¬ 
ción del valor del euro durante dos periodos? 

Rubinstein demostró que a pesar de esta multiplicidad de equilibrios de 
Nash, hay un único equilibrio de perfección en el subjuego. Esa demostra¬ 
ción depende sólo de un supuesto: que cuando un jugador sea indiferente 
entre aceptar y rechazar una oferta, elige aceptarla. En el caso más extremo, 
esto implica que si un jugador en el último periodo tiene que elegir entre una 
oferta que le deja 0 euros y rechazar la oferta provocando la desaparición del 
euro, acepta la oferta. El jugador prefiere aceptar la oferta (1, 0) a recha¬ 
zarla. 
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Para calcular el equilibrio de perfección en el subjuego, hay que proceder 
por retroinducción, de atrás hacia delante. Se desarrolla el argumento en 
tres fases, A, B y C. 

A. Comenzamos por el periodo final, t = 3. Habiendo sólo tres periodos 
de ofertas, y haciendo ofertas J1 en los periodos impares, J1 tiene ca¬ 
pacidad de ultimátum en la última ronda. J1 puede forzar al máximo 
a J2, pues si J2 rechaza la oferta final de Jl, J2 se queda sin nada. De 
esta manera, en t - 3 Jl hace la oferta (1, 0) y J2, por la razón ante¬ 
riormente expuesta, acepta. 

B. En t = 2, le toca a J2 hacer una oferta. Jl sólo acepta la oferta si es al 
menos tan buena como lo que puede conseguir en el periodo siguien¬ 
te, t = 3. Lo que puede conseguir en t = 3 es 1, que en el periodo t = 2 
lo valora como 5jl. Por lo tanto, la oferta de J2 es (Sjl, 1 - ^1). Esta 
oferta hace a Jl indiferente entre aceptar y rechazar. Suponemos que 
Jila acepta. 

C. En t = 1, J1 hace una oferta que J2 acepta sólo si lo que le toca es al 
menos tan bueno como lo que podría conseguir rechazando la oferta 
y pasando al siguiente periodo. Lo que J2 puede conseguir en t = 2 
es 1 - Sjl, luego J2 es indiferente en t = 1 entre conseguir 5 2 (1 - 5jl) 
en t = 1 o conseguir 1-^1 en t = 2. Por lo tanto, la oferta de Jl es 
(1 - S 2 ( 1 - Sj 1), 8 2 ( 1 - 8 l 1)). Cuando Jl hace esa oferta, J2 la acepta 
inmediatamente. 

Esquemáticamente, el proceso se podría representar tal y como aparece 
en el cuadro 4.5. 


CUADRO 4.5 

EL MODELO DE NEGOCIACIÓN DE RUBINSTEIN EN TRES PERIODOS 



Oferta de Jl 

Oferta de J2 

t= 1 

(1 - 5 2 (1 - S,1), 5 2 (1 - 5,1)) 


f= 2 


(5,1, 1 - 5,1) 

f= 3 

(1,0) 



El único equilibrio de perfección en el subjuego consiste por tanto en 
que Jl y J2 sigan las estrategias especificadas. En la primera ronda Jl ofrece 
(1 - S 2 (l - 8 l 1), S 2 (l - Sjl)) y J2 acepta. El juego acaba ahí. Ésa es la ruta de 
equilibrio. No obstante, dicha ruta de equilibrio se sostiene sobre las 


TEORÍA DE JUEGOS 


103 


respuestas óptimas calculadas fuera de la ruta de equilibrio, es decir, la ruta de 
equilibrio es tal porque los jugadores anticipan que en el segundo periodo la ofer¬ 
ta de J2 sería (5 1 1, 1 - 8 1 1) y que en el tercer periodo la oferta de J1 sería (1,0). 

Supongamos que 8 { = 8 2 = 0,8. Teniendo igual poder negociador, la dife¬ 
rencia o asimetría que se produce en la oferta inicial de J1 es consecuencia 
única y exclusivamente del poder de ultimátum que tiene J1 en el último pe¬ 
riodo. Con ese factor común de descuento, la oferta de J1 sería (0,84, 0,16). 
Si además variamos el factor de descuento, o poder negociador, de forma 
que J1 sea más paciente que J2, la diferencia es todavía mayor. Valga 8 { = 0,9 
y 8 2 = 0,7. Ahora la oferta de J1 sería (0,93, 0,07), todavía más asimétrica. 

Cuando el juego se juega indefinidamente, habiendo una sucesión ininte¬ 
rrumpida de ofertas y contraofertas hasta que se alcanza un acuerdo, el po¬ 
der de ultimátum de J1 desaparece y cualquier diferencia que se produzca 
en la oferta de equilibrio en el primer periodo se debe casi en su totalidad a 
los distintos factores de descuento de los jugadores. Cuando el juego se repi¬ 
te indefinidamente, la oferta que forma parte de la ruta de equilibrio de per¬ 
fección en el subjuego es: 

l-8 2 j l-8 2 \ = / l-8 2 s 1 -8 2 
1-V> 2 ’ 1 -S l S 2 ) = [í-S l S 2 ’ 2 1 -8,5, 

Aquí sigue habiendo una ligera asimetría a favor de J1 aunque los facto¬ 
res de descuento sean idénticos, simplemente porque J1 parte con una ven¬ 
taja marginal por ser el primero en poder realizar una oferta. Si suponemos 
S t = 8 2 = 0,9, la oferta de equilibrio es (0,53, 0,47). Cuando el factor de des¬ 
cuento es idéntico, la oferta de equilibrio se simplifica así: 

1-8 8(1 - 8) \ = f_L _ 8 _\ 

1-8 2 ' 1 ~ 8 2 / \ 1 + 8’ 1+8/ 

Si suponemos factores de descuento distintos, entonces el poder negocia¬ 
dor es asimétrico y eso se refleja en una oferta más favorable a un jugador 
que a otro. Por ejemplo, si 8 } = 0,7 y 8 2 - 0,9, la oferta de equilibrio es (0,36, 
0,64). 

La propiedad más sorprendente del modelo de Rúbinstein, ya sea en la 
versión simplificada en tres periodos, ya sea en el juego repetido indefinida¬ 
mente, es que la negociación nunca llega a desarrollarse. Siempre se acaba 
en la primera ronda, con una oferta de equilibrio que lanza J1 y que J2 acep¬ 
ta. Sin embargo, en el mundo real observamos que a veces las negociaciones 
se prolongan durante largos periodos de tiempo. Esto no tiene sentido en 
términos del modelo de Rúbinstein, puesto que los dos jugadores saben que 
cuanto más tiempo pase, más valor pierde el bien sobre el que están nego¬ 
ciando. Anticipando esa pérdida de valor en función del factor de descuento 
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de cada jugador, las partes consiguen llegar a un acuerdo en la primera ron¬ 
da del juego. Si a pesar de esto las negociaciones no se acaban en la primera 
ronda, es porque la situación real es más compleja que el modelo de Rubins- 
tein. Por ejemplo, puede haber información incompleta: los jugadores no tie¬ 
nen toda la información relevante sobre sus rivales y pueden avanzar en la 
negociación con la intención de recabar parte de esa información que les fal¬ 
ta. Este tipo de juegos de información incompleta se estudia en el siguiente 
capítulo. 

El modelo de Rubinstein no sólo tiene aplicaciones económicas. En cien¬ 
cias sociales el modelo se ha utilizado para entender por qué y cómo suce¬ 
den las huelgas en los enfrentamientos entre trabajadores y empresarios 
(Lange y Tsebelis 1993), o para modelizar el funcionamiento interno del 
Congreso estadounidense (Barón y Ferejohn 1987). Una visión panorámica 
de los desarrollos del modelo de Rubinstein y de sus aplicaciones múltiples 
puede encontrarse en Muthoo (1999). 


Aplicación: El surgimiento de ideologías políticas 

Si partimos del supuesto estricto de auto-interés material, ¿cómo explicar 
que muchas personas tengan preferencias sobre asuntos que no guardan 
ninguna relación con sus vidas? ¿Por qué razón alguien que vive en un país 
desarrollado y democrático tiene opiniones sobre los abusos de los derechos 
humanos en algún país dictatorial y en vías de desarrollo? ¿O por qué un va¬ 
rón heterosexual debería preocuparse por los derechos de matrimonio de los 
homosexuales? Kathleen Bawn (1999) ha intentado proporcionar una res¬ 
puesta a estas preguntas a partir del análisis de un juego repetido. Voy a pre¬ 
sentar en esta sección la parte más sencilla de su modelo. 

Según Bawn, es posible entender el desarrollo de preferencias acerca de 
cuestiones que no nos tocan de cerca en términos de estricto auto-interés 
material. Todas las preferencias que no se basan en nuestros intereses más 
directos forman parte de lo que la autora llama "ideología". Pues bien, cabe 
reconstruir la creación de ideologías a partir de un juego de formación de 
coaliciones en el que tan sólo intervienen los intereses materiales de los juga¬ 
dores. Desde este punto de vista, dichos intereses se persiguen mejor a largo 
plazo si las personas actúan ideológicamente que si no lo hacen así. La ra¬ 
zón, en esencia, es el "hoy por ti, mañana por mí”. Se constituye de esta ma¬ 
nera una coalición de apoyo mutuo que garantiza que sus miembros estén 
mejor que si actuaran individualmente. El comportamiento que resulta de la 
coalición es equivalente a actuar según consideraciones ideológicas. 

Para poder formalizar esta idea, expondré a continuación el juego más 
sencillo del modelo de Bawn, lo que ella llama el "juego de la política”. Hay 
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tres jugadores, Jl, J2 y J3. En cada periodo t, se reúnen para decidir si se 
embarcan en algún proyecto público. Si se lleva a cabo el proyecto, uno de 
los jugadores, con probabilidad 1/3, se lleva un beneficio B , mientras que 
otro, con igual probabilidad, paga un coste C t , quedando el tercero no afecta¬ 
do por el proyecto, ni para bien ni para mal. Mientras que los beneficios son 
constantes, los costes pueden variar de un periodo a otro. De ahí que los re¬ 
presentemos con un subíndice temporal. Hay una distribución uniforme de 
probabilidad para los costes en el intervalo (0, 2 B). El coste oscila por tanto 
entre 0 y dos veces el beneficio B del proyecto. 

Cada uno de los tres jugadores tiene tres estrategias con respecto al pro¬ 
yecto público. Puede abstenerse (A), votar a favor del proyecto (F), u oponer¬ 
se (O) votando en contra. Votar, ya sea a favor o en contra, supone un cos¬ 
te v, que es siempre mucho menor que B . El proyecto se lleva a cabo si hay 
una mayoría a favor. 

Desde un punto de vista estático, el juego de la política se desarrolla 
como sigue: Naturaleza elige quién es la persona que se ve beneficiada por el 
proyecto, quién tiene que pagar el coste, y quién es indiferente porque el pro¬ 
yecto no le afecta. Supongamos, por ejemplo, que Jl es quien ha de asumir 
el coste del proyecto, J2 es el beneficiario del mismo, y a J3 no le afecta ni 
positiva ni negativamente. Puesto que J3 no tiene incentivos para participar, 
siempre se abstiene. El juego entre Jl y J2 se puede representar tal y como 
aparece en el cuadro 4.6. 


CUADRO 4.6 

EL JUEGO ESTÁTICO DE LA POLÍTICA 


A 

Jl 

O 


Si Jl se abstiene y J2 vota a favor, el proyecto se aprueba, con lo que Jl 
paga el coste del proyecto, mientras que J1 se lleva el beneficio y paga el coste 
de votar. Si, por el contrarío, Jl vota en contra y J2 a favor, hay un empate, 
el proyecto no se aprueba y los dos jugadores pagan el coste de votar. Si los 
dos se abstienen, no se aprueba el proyecto y nadie paga coste alguno. Por 
último, si Jl se opone y J2 se abstiene, el proyecto no sale adelante y Jl paga 
el coste de votar. 

Si C < v, A domina débilmente a O para Jl y éste por tanto se abstiene. 
J2 vota a favor y el proyecto se aprueba. El equilibrio de Nash es por tanto 


J2 

F A 


-C.B-V 

0, 0 

-V, -V 

-v, 0 
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(A, F). Cuando C > v, los jugadores siguen estrategias mixtas, de tal manera 
que los dos jugadores son indiferentes entre sus estrategias puras. Sean p J} y 
p J2 las probabilidades de que J1 y J2 se abstengan respectivamente. J1 hará 
indiferente a J2 cuando p JÍ sea tal que: 


UE J2 (A) = UE J2 (F) 


Es evidente que UE J2 CA) = 0. Por tanto, la ecuación anterior se puede ex¬ 
presar así: 


0 = Pjj(B - v) + (1 -Pjj)(-v) 


Despejando con respecto a p n , 


v 



En cuanto a J2, elegirá p J2 tal que 

UE n (A) = UEjj(O) 


Es decir, 


(1 -p J2 )(-C) = -v 


Despejando a su vez, 



C-v 

C 


Cuando C ^ v, la probabilidad conjunta de que un proyecto se apruebe 
será por tanto la probabilidad de que J1 se abstenga por la probabilidad de 
que J2 no se abstenga, es decir: 


r « {í - p ¿’cB 


Resumiendo, las estrategias de equilibrio en el juego estático para los dis¬ 
tintos tipos de jugadores son los siguientes: 


Beneficiario: Si C < v, F 

Si C >v,F con probabilidad —- y A con probabilidad 
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Pagador: 


Si C <v, A 

Si C ^ v, O con probabilidad ——— y A con probabilidad —. 

B B 


Indiferente: Elige A con cualquier valor de C. 


Cabe también calcular el pago esperado para un jugador genérico sabien¬ 
do que tiene una probabilidad de 1/3 de ser quien paga el proyecto, 1/3 de ser 
quien se beneficia y 1/3 de que no le afecte el proyecto. A su vez, hay que te¬ 
ner en cuenta la probabilidad de que ocurra C<voC>v. Puesto que C tiene 
una distribución uniforme de probabilidad en el intervalo (0, 2B), la probabi¬ 
lidad de C < v ha de ser En consecuencia, Pr(C > v) = 1 - ^ V . 

2B 2B 2B 

Pues bien, la utilidad esperada del juego dados los equilibrios antes espe¬ 
cificados y teniendo en cuenta que es Naturaleza quien decide la identidad 
de cada jugador, es la siguiente h 


v 

2 B 


1 l ~v 
3 


+ -CB-v) + -0| + 


2B-vi 


2 B \3 


1 


i(-v) + 40 + Í0 —I 


V 2 

12 B 


El término del lado izquierdo de la ecuación tiene dos partes. La primera 
corresponde al caso de que C sea menor que v. Con probabilidad 1/3, el juga¬ 
dor tiene que pagar el coste C del proyecto. Dado que dicho coste es menor 
que v, pues partimos de ese supuesto, su valor esperado en el intervalo (0, v) 
es v/2, ya que se trata de una distribución uniforme. Con probabilidad 1/3, el 
jugador es el beneficiario, en cuyo caso el proyecto se aprueba con su voto, 
lo que le da un beneficio B menos el coste de votar. Y con la probabilidad 
restante es indiferente, en cuyo caso se abstiene y no gana ni pierde. La se¬ 
gunda parte corresponde al caso de que C sea mayor que v. Ahora los pagos 
se determinan según las estrategias mixtas del equilibrio. 

La expresión anterior tiene importancia para determinar si, al repetirse 
indefinidamente el juego, hay otras combinaciones de estrategias en las que 
los tres jugadores están mejor que con respecto al equilibrio del juego estáti¬ 
co. En principio, sabemos por el teorema popular que cabe esperar múltiples 
equilibrios. Vamos a considerar uno de ellos que tiene especial relevancia 
para el asunto de la ideología. A fin de describir este equilibrio, sea EQ la es¬ 
trategia de equilibrio en el juego estático (jugado una sola vez). Pues bien, 
llamaremos R a la siguiente combinación de estrategias en el juego repetido: 


1 El lector que acuda al artículo original de Bawn encontrará que a partir de este punto se 
derivan resultados ligeramente distintos a los que aquí presento. Esto se debe a que Bawn co¬ 
mete un pequeño error en la especificación de los pagos, suponiendo que el beneficiario obtiene 
B, cuando en realidad obtiene B - v. Esta pequeña omisión no tiene, sin embargo, consecuen¬ 
cias sustantivas en el modelo. En adelante se presentan los cálculos corregidos por el autor. 
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— Si J1 y J2 han jugado R n (i = Jl, J2) en el pasado, entonces juegan R J{ 
en el presente. 

— r ji y r j 2 se interpretan así: apoyar cualquier proyecto en el que el be¬ 
neficiario es Jl o J2, oponerse a cualquier proyecto en el que el benefi¬ 
ciario es J3. 

— R J3 : abstenerse siempre. 

En esta combinación de estrategias, Jl y J2 forman una coalición de apo¬ 
yo mutuo que actúa en contra de J3. Si alguien observara este comporta¬ 
miento, podría conjeturar que Jl y J2 sienten simpatía entre ellos, o que 
comparten la misma ideología. Sin embargo, lo único que estamos supo¬ 
niendo hasta el momento es que Jl y J2 deciden formar una coalición sobre 
la sola premisa del auto-interés. 

Para confirmar que R es un equilibrio, tenemos que mostrar que J1 y J2 
están mejor jugando R que EQ. El pago esperado del equilibrio R para Jl y 
B 

J2 es — - v. Esta expresión resulta de tener en cuenta las probabilidades de 

que la identidad de los jugadores sea la de beneficiarios o pagadores. A fin 
de realizar los cálculos correctos, conviene examinar el cuadro 4.7, en el que 
se presentan todas las situaciones posibles. 


CUADRO 4.7 

LAS SEIS POSIBLES SITUACIONES EN EL EQUILIBRIO R 



Identidad 


Acción 



Pagos 


Beneficiario Pagador 

Jl 

J2 

J13 

Jl 

J2 

J3 

Jl 

J2 

F 

F 

A 

B-v 

-B-v* 

0 

Jl 

J3 

F 

F 

A 

B-v 

-V 

-B 

J2 

Jl 

F 

F 

A 

-B-v* 

B-v 

0 

J2 

J3 

F 

F 

A 

-v 

B-v 

-B 

J3 

Jl 

0 

0 

A 

-V 

-v 

0 

J3 

J2 

0 

0 

A 

-V 

-V 

0 


* El pago es-C-v. Como Ces una variable aleatoria con una distribución uniforme de probabilidad en el inter¬ 
valo (0, 26), el valor esperado de Ces B. 
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Las seis situaciones son equiprobables y por tanto la probabilidad de ocu¬ 
rrencia de cada una de ellas es 1/6. Los pagos esperados de J1 y J2 de acuer¬ 
do con el cuadro 4.7 son: 

\ (B - v) + 2 (- B - v) + - (- v) = - v 

6 6 6 6 


En cuanto al pago esperado por J3, es simplemente - B/3 , como resulta 
evidente en el cuadro 4.8. 

Ahora ya podemos determinar si R es un equilibrio o no. Para ello, es 
preciso averiguar si a J1 o a J2 les interesa desviarse de la estrategia que dic¬ 
ta R cuando les toca hacerse cargo de los costes del proyecto. Podrían tener 
la tentación de votar en contra, sobre todo en el caso más desfavorable posi¬ 
ble, cuando el coste del proyecto es máximo, es decir, cuando C = 2B . Si a 
quien le toca pagar vota en contra en esa ronda, se ahorra el coste 2B % Se su¬ 
pondrá que si se produce una desviación, entonces el jugador perjudicado 
vuelve a la estrategia EQ del juego estático para siempre. 

La utilidad de no desviarse en la ronda t cuando al jugador J1 o J2 le toca 
pagar el proyecto y el coste es el máximo, 2B, se puede representar así: 

(- 2B-v) + ¿ 5 ' ( — -v 

t=\ \ 6 


A su vez, la utilidad de desviarse en la ronda presente votando en contra 
del proyecto y recibiendo a partir de ese momento los pagos correspondien¬ 
tes al equilibrio EQ del juego estático es: 


- v + 




El primer término, -v, es el coste de votar en contra en la ronda presente, 
lo que hace que el proyecto no se apruebe y por tanto el jugador no tenga 
que pagar el coste del mismo, mientras que el segundo representa el pago del 
castigo permanente que consiste en jugar el juego según el equilibrio del jue¬ 
go estático. 

La combinación de estrategias R (que reproduce el comportamiento ideo¬ 
lógico) es un equilibrio cuando el coste del proyecto es máximo (C = 2 B) 
siempre que el pago de no desviarse sea superior al pago de desviarse. Es de¬ 
cir, cuando 


(-2J3-v) +j>> (4 

t= i \ 6 


v > - v + 


2 * [-5 
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Aplicando las reglas básicas del álgebra, despejamos el valor crítico del 
factor de descuento 8 que satisface la inecuación anterior. En concreto, 
cuando el coste del proyecto es el máximo, 8 ha de cumplir esta condición: 

8> 24 B 2 

> 26 B 2 - 10 Bv + v 2 

Cuando se cumple, R es un equilibrio de Nash, puesto que ni J1 ni J2 tie¬ 
nen incentivos para desviarse de la coalición que forman en perjuicio de los 
intereses de J3. La repetición indefinida del juego permite, por tanto, que 
surja una pauta de comportamiento que, según Bawn, coincide con lo que con¬ 
sideramos que es el comportamiento ideológico: J1 se interesa por proyectos 
en los que no tiene un interés personal a cambio de que J2 haga lo mismo. 
Esa coalición les reporta beneficios, de tal modo que los jugadores están me¬ 
jor desarrollando un interés por cuestiones que les son ajenas que cuando 
actúan solamente en función de consideraciones en las que sólo interviene el 
interés personal. 


5 

Juegos de información incompleta 


Información incompleta 

En el capítulo 3 se distinguió entre juegos de información perfecta y juegos 
de información imperfecta. Un juego de información imperfecta es aquel en 
el que uno de los jugadores no sabe qué estrategia ha elegido su rival en la 
jugada anterior. Más técnicamente, un juego de información perfecta se defi¬ 
ne como un juego en el que todos los conjuntos de información de los juga¬ 
dores son singletons . En un juego de información incompleta, no todos los 
conjuntos de información son singletons , pero no porque un jugador no sepa 
lo que ha hecho antes su rival, sino porque uno de los dos jugadores (o los 
dos) no está seguro acerca de los pagos de su rival. El jugador sabe que 
los pagos del otro pueden ser de varios tipos, pero desconoce cuál de ellos 
corresponde realmente a los pagos auténticos. En el capítulo 2 se mencionó 
esta posibilidad al comentar las interpretaciones que se han propuesto de las 
estrategias mixtas. Según una de estas interpretaciones, las probabilidades 
con las que un jugador elige cada estrategia pura son las probabilidades de 
que sea un tipo de jugador u otro. De esta manera, J1 no se enfrenta a una 
estrategia mixta de J2, sino que J1 no sabe qué pagos tiene realmente su con¬ 
trincante: tan sólo sabe que los pagos pueden ser unos u otros, y que en fun¬ 
ción de cuáles sean los pagos reales, J2 elige una estrategia pura u otra. 

Dentro de los juegos de información incompleta, los que tienen más apli¬ 
caciones empíricas son los juegos de señal (signaling gantes). Cuando un ju¬ 
gador no está seguro acerca de los pagos del rival, puede utilizar los movi¬ 
mientos del rival como pistas o información indiciaría acerca de sus pagos 
verdaderos. De esta forma, el jugador va refinando o precisando sus creen¬ 
cias iniciales acerca del tipo de jugador con el que está interactuando. En 
ocasiones, las jugadas del rival pueden ser suficientemente informativas 
como para disipar del todo la incertidumbre inicial acerca de sus pagos. 

Puede suceder que la información incompleta se dé por ambas partes, es 
decir, que ninguno de los jugadores esté seguro acerca de los pagos del otro. 
Esta situación es técnicamente compleja y no se analiza aquí. Nos limitamos 
al caso en que sólo uno de los jugadores no conoce los pagos del otro, pero el 
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otro sí conoce los pagos de su rival. Los primeros juegos de señal se remon¬ 
tan a comienzos de los años setenta del siglo pasado: se trata de modelos en 
los que por ejemplo se representa la interacción estratégica entre un trabaja¬ 
dor que busca trabajo y un empresario que ofrece un puesto de trabajo. El 
empresario no sabe con qué tipo de trabajador está tratando, si es un traba¬ 
jador dispuesto a esforzarse o si aprovechará cualquier oportunidad para za¬ 
farse de sus obligaciones. El empresario, por tanto, tiene información in¬ 
completa sobre el tipo de trabajador al que está pensando contratar. Parte 
del problema se puede resolver si el trabajador manda una señal sobre su na¬ 
turaleza al empresario: esa señal puede consistir en el nivel educativo alcan¬ 
zado, pues éste transmite información sobre la capacidad y tenacidad del in¬ 
dividuo. 

En el estudio de los juegos de información incompleta es fundamental el 
papel que desempeñan las creencias de los jugadores. Hasta el momento no 
hemos incorporado las creencias como parte del equilibrio del juego, aunque 
estaban presentes en el juego en los nodos o conjuntos de información de los 
jugadores. En los juegos que se van a examinar a continuación, las creencias 
se reñeren a los posibles pagos del rival y su contenido puede ir variando 
conforme avanza el juego. De ahí que tengamos que averiguar en función de 
qué criterios las creencias pueden cambiar y cómo se incorporan las creen¬ 
cias en el cálculo del equilibrio. La primera cuestión, cómo nueva informa¬ 
ción modifica creencias anteriores, se puede abordar con la regla de Bayes, 
de la que nos ocupamos en la siguiente sección. La segunda, cómo se especi¬ 
fican las creencias en un equilibrio, obliga a introducir el concepto de equili¬ 
brio bayesiano perfecto. Una vez que estas dos cosas queden explicadas, po¬ 
dremos empezar con los juegos de información incompleta. 


La regla de Bayes 

La regla de Bayes permite revisar o actualizar nuestras creencias a la luz de 
nueva información. Establece cómo la ocurrencia de un suceso altera una 
creencia inicial acerca de un estado del mundo. Supongamos, en el caso más 
simple, que sólo hay dos estados del mundo, A y (A y su contrario): por 
ejemplo, que un acusado en un juicio dice la verdad (A) o miente (—A). Dire¬ 
mos que p(A) es la creencia inicial (prior belief) que tiene un individuo (por 
ejemplo el juez) de que el acusado dice la verdad, su estimación subjetiva de 
que es sincero. Durante el interrogatorio el juez descubre que el acusado se 
ruboriza cuando responde a ciertas preguntas. Este suceso, al que llamare¬ 
mos B, altera la creencia inicial y lleva al juez a formarse una nueva creen¬ 
cia, una creencia posterior a la observación de B (su posterior belief). Esta 
creencia posterior la podemos representar como una probabilidad condicio¬ 
nal, p(A\B), es decir, la probabilidad de que la persona esté diciendo la verdad 
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dado que se ruboriza. La regla de Bayes indica la relación que hay entre p(A) 
y p(A\B), entre la creencia inicial y la creencia posterior. En concreto, la re¬ 
gla se formula así: 


p(A\B) 


p{A)p{B\A) 


p(A)p(B\A) +p(-A)p(BhA) 


La probabilidad de que alguien diga la verdad cuando se ruboriza es 
igual al cociente entre dos cantidades: en el numerador tenemos la probabili¬ 
dad de que la persona diga la verdad multiplicada por la probabilidad de que 
se ruborice si dice la verdad; en el denominador tenemos ese mismo produc¬ 
to sumado a otro, la probabilidad de que la persona no diga la verdad multi¬ 
plicada por la probabilidad de que se ruborice si miente. 

Supóngase que p{A) = 0,6. Ésta es la creencia inicial de que la persona 
dice la verdad. Supóngase también que p(B\A) = 0,1 (la probabilidad de que 
alguien se ruborice cuando dice la verdad). La aplicación de la regla de Ba¬ 
yes nos da este resultado: 


P(A\B) = 


0,6*0,1 

0,6*0,1 +0,4*0,9 


0,143 


La creencia posterior de que el acusado esté diciendo la verdad es sólo de 
0,14, frente a la creencia inicial 0,6. La creencia inicial por tanto ha sido ac¬ 
tualizada a la luz del acontecimiento observado. 

Cuando hay más de dos estados del mundo posibles (por ejemplo, que 
diga toda la verdad, que diga una parte de la verdad, que mienta en todo), la 
fórmula es: 


p{A^B) = , g U , }PW I 

^p{A)p{B\A j ) 

1=1 

La regla de Bayes describe cómo la nueva información se procesa racio¬ 
nalmente. Su derivación se puede establecer en sólo dos pasos. Si partimos 
de la definición de probabilidad condicionada, tenemos que: 

p(B) 

De lo que se trata ahora es de aplicar al numerador la regla sobre el pro¬ 
ducto de probabilidades y al denominador la regla sobre la probabilidad 
total. La regla sobre el producto de probabilidades establece que: 


p(A n B) =p(B\A)p(A) = p{A\B)p{B ) 
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Es decir, que la probabilidad de que se den Ay B es igual a la probabilidad 
de que se dé A si se da B multiplicado por la probabilidad de que se dé B. 
Esto nos da el numerador de la regla de Bayes. Por su parte, la regla sobre la 
probabilidad total se expresa así: 

p{B) = 2 p{B\A)p(A) 

La probabilidad de ocurrencia de B es igual a la suma de las probabilida¬ 
des condicionadas de B a un sistema completo de sucesos A multiplicadas 
por la probabilidad de ocurrencia de cada suceso A.. Esto nos da el denomi¬ 
nador de la regla de Bayes. 


Equilibrio bayesiano perfecto 

El concepto de equilibrio bayesiano perfecto es un refinamiento con respec¬ 
to al equilibrio de perfección en el subjuego, que a su vez es un refinamiento 
del equilibrio de Nash. Así como sólo algunos equilibrios de Nash son tam¬ 
bién de perfección en el subjuego, sólo algunos equilibrios de perfección en 
el subjuego son equilibrios bayesianos perfectos. 

Las limitaciones del equilibrio de perfección en el subjuego son dos. Por 
una parte, este concepto no se puede aplicar en aquellos juegos que no tie¬ 
nen otro subjuego que el propio juego, es decir, juegos que no contienen sub¬ 
juegos más pequeños que el propio juego. Por otra, incluso cuando se puede 
aplicar, sucede en ocasiones que la aplicación origina equilibrios poco razo¬ 
nables. El equilibrio bayesiano perfecto supera estas dos limitaciones. Se 
puede aplicar en cualquier juego y, gracias a la incorporación de las creen¬ 
cias en el equilibrio, elimina los equilibrios poco razonables. Hasta el mo¬ 
mento el equilibrio de Nash o el de perfección en el subjuego se definían ex¬ 
clusivamente en términos de estrategias. Ahora, el equilibrio bayesiano 
perfecto se define a partir de estrategias y creencias. Esto complica algo las 
cosas. Además de comprobar si las estrategias son respuestas óptimas entre 
sí, hay que comprobar si las estrategias son coherentes con las creencias y si 
las creencias tienen sentido dadas las estrategias. 

La especificación de las creencias se realiza del siguiente modo (según se 
vio en el capítulo 3). El jugador tiene creencias acerca de su posición en el 
juego (si no sabe lo que ha hecho su rival antes, ¿está en el nodo derecho o 
en el izquierdo de su conjunto de información?). Si el jugador se encuentra en 
un singleton, el jugador sabe con exactitud en qué punto del juego se 
encuentra cuando le toca mover: su creencia de estar en un punto del juego 
concreto cuando le toca mover tiene probabilidad 1, hay certidumbre. Pero 
si el conjunto de información cubre más de un nodo, entonces la creencia 
es una distribución de probabilidad sobre los nodos del conjunto de infor- 
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mación. Cuando al jugador le toque jugar en un conjunto de información 
determinado, asignará una probabilidad a cada nodo (cada probabilidad es 
una creencia de estar en uno de los nodos) de forma que la suma de todas 
ellas dé 1. 

Las estrategias han de cumplir una condición de la máxima importancia, 
llamada racionalidad secuenciaL Decimos que las estrategias son secuencial- 
mente racionales si cada acción del jugador es óptima dadas la creencia del 
jugador y las estrategias de los otros jugadores. La idea de racionalidad se- 
cuencial es muy parecida a la de respuesta óptima (véase el capítulo 2), sólo 
que incorporando las creencias. 

Con todo, la racionalidad secuencial no es suficiente para determinar un 
equilibrio. Al fin y al cabo, la condición de racionalidad secuencial sólo afec¬ 
ta a las estrategias (dadas las creencias), pero no dice nada de las creencias 
en sí mismas. Si por un lado las estrategias han de ser secuencialmente ra¬ 
cionales, por otro las creencias han de ser racionales. ¿Qué quiere decir que 
las creencias sean racionales? Aquí hay que hacer una distinción entre con¬ 
juntos de información que forman parte de la ruta de equilibrio (on the equi- 
librium path) y conjuntos de información que están fuera de la ruta de equi¬ 
librio (off the equilibrium path). En el capítulo 3 se explicó que la ruta de 
equilibrio es el tramo del juego que se recorre cuando los jugadores juegan 
sus estrategias de equilibrio. También se dijo que el equilibrio es algo más 
amplio que la ruta de equilibrio, pues el equilibrio incluye tanto la ruta de 
equilibrio como las respuestas óptimas que elegirían los jugadores si estuvie¬ 
ran fuera de la ruta de equilibrio. Más técnicamente, la ruta de equilibrio 
está formada por todos aquellos conjuntos de información en el juego que 
tienen una probabilidad mayor de 0 de ser alcanzados cuando los jugadores 
juegan sus estrategias de equilibrio. Si se dice que la probabilidad ha de ser 
mayor que 0 y no directamente 1 es porque los jugadores pueden emplear 
estrategias mixtas en equilibrio. 

Una vez aclarada la distinción entre lo que está dentro y fuera de la ruta 
de equilibrio, la racionalidad de las creencias consiste en esto: si las creen¬ 
cias están en la ruta de equilibrio, se determinan en función de las estrate¬ 
gias de equilibrio y de la regla de Bayes; si las creencias están fuera de la 
ruta de equilibrio, en principio quedan indeterminadas, pero, si es posible, 
se aplica la regla de Bayes. 

Un equilibrio bayesiano perfecto es un conjunto de estrategias y creen¬ 
cias tal que las estrategias son secuencialmente racionales y las creencias 
son racionales. El problema principal reside en las creencias fuera de la ruta 
de equilibrio (véase Weingast 1996). Las creencias fuera de la nata de equili¬ 
brio resultan difíciles de tratar, pues son creencias acerca de lo que harían 
los jugadores si lo que no tiene que suceder sucede. Lo que no tiene que su¬ 
ceder, evidentemente, es que los jugadores se desvíen de su ruta de equili¬ 
brio. De todos los refinamientos del equilibrio de Nash, el que menos restric¬ 
ciones impone sobre las creencias fuera de la ruta de equilibrio es el 
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CUADRO 5.1 

UN JUEGO DE INFORMACIÓN IMPERFECTA 



equilibro bayesiano perfecto. Hay otros refinamientos más complejos (como 
el equilibrio secuencial o el equilibrio perfecto) que corresponden a un nivel 
más avanzado de teoría de juegos (Morrow 1994: caps. 6-8). 

La mejor forma de comenzar a entender el equilibrio bayesiano perfecto 
y los problemas que producen las creencias fuera de la ruta de equilibrio es 
mediante el análisis detallado de algún ejemplo. El ejemplo elegido procede 
de Kreps (1990a: 432-433). En el cuadro 5.1 tenemos el juego en cuestión. 
Comienza Jl, que tiene tres estrategias, U, L o R. Si J1 elige U, el juego se 
acaba. Si elige L o R, interviene J2, pero J2, cuando le toca jugar, sólo sabe 
que Jl no ha hecho U: lo que no sabe es si ha elegido L o R. En este juego no 
se puede aplicar el concepto de equilibrio de perfección en el subjuego, pues¬ 
to que el único subjuego es el que comienza en el nodo de Jl y por tanto el 
subjuego coincide con el propio juego. Tampoco se puede aplicar la retroin- 
ducción, ya que el conjunto de información de J2 tiene dos nodos. 


CUADRO 5.2 

EL JUEGO DEL CUADRO 5.1 EN FORMA NORMAL 


u 

L 


! r 


— 

2, 2 

2/2 

5, 1 

0,0 

0, 0 

1,3 


R 
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Si reducimos el juego a forma normal, como se ha hecho en el cuadro 
5.2, se pueden detectar dos equilibrios de Nash, (U; r) y (L; /). Sin embargo, 
( U ; r ) no es un equilibrio bayesiano perfecto y no resulta razonable. 

Examinemos el equilibrio de Nash (U; r) más detenidamente. Si J1 está 
seguro de que J2 va a hacer r, la respuesta óptima de J1 es U; y si J2 piensa 
que J1 va a hacer U, cualquier acción de J2 es una respuesta óptima en la 
medida en que J2 no llega a jugar. La estrategia de J2 está fuera de la ruta 
de equilibrio. Sus creencias, por tanto, están indeterminadas. No obstante, 
podemos plantear la siguiente cuestión: ¿qué creencias de J2 harían que J2 
eligiera r frente a /? Digamos que a es la creencia que J2 tiene de estar en el 
nodo izquierdo de su conjunto de información, y 1 - a la creencia de estar 
en el nodo derecho. La cuestión está en saber qué creencias son compati¬ 
bles con la elección de la estrategia r. La utilidad esperada de cada estrate¬ 
gia de J2 es: 


UE n {l) = al + (1 - a)0 = a 
UE n (r) = aO + (1 - a) 3 - (1 - a)3 

J2 prefiere jugar r frente a / cuando UE J2 (r) > UE J2 (l). Esto sucede cuando: 

(1 - a) 3 > a 


Es decir, cuando: 


4 

Esto significa que J2 elige r cuando piensa que la probabilidad de estar 
en el nodo izquierdo si le tocara jugar es menor de 3/4. ¿Es razonable esta 
creencia? La respuesta es difícil, puesto que el conjunto de información de J2 
está fuera de la ruta de equilibrio y no podemos utilizar entonces las estrate¬ 
gias de equilibrio para determinar las creencias. En esta ocasión, tampoco 
podemos utilizar la regla de Bayes, porque no hay nada que actualizar ya 
que J1 juega U y el juego acaba ahí. No obstante, se puede ofrecer el siguien¬ 
te argumento: si J1 no fuera a elegir U, elegiría L, ya que R le proporciona 1 
como mucho y 0 como poco, mientras que L le proporciona 5 como mucho y 
0 como poco. Además, R está fuertemente dominada por U. Si J2 se conven¬ 
ce de esto, entonces tiene que concluir que si le toca jugar es porque está en 
el nodo izquierdo, pero si cree con probabilidad 1 que está en el nodo iz¬ 
quierdo, la respuesta óptima es Z y no r. Puesto que la creencia de estar en el 
nodo izquierdo si le toca jugar será 1, r no puede ser una respuesta óptima a 
U. La creencia a < 3/4 no es racional si la estrategia racional de J1 consiste 
en elegir L y no R cuando decide no jugar U. Así, ( U ; r), aunque es un equili¬ 
brio de Nash, no es un equilibrio bayesiano perfecto: las creencias que hacen 
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posible ese equilibrio no son coherentes dadas las estrategias de equilibrio 
propuestas, y al revés, las estrategias de equilibrio propuestas no son cohe¬ 
rentes con las creencias de equilibrio. 

Si la estrategia racional de 32 es /, J1 no jugará U, pues U no es una res¬ 
puesta óptima a /. Si J1 espera que J2 juegue /, J1 jugará L. Esto corresponde 
al segundo equilibrio de Nash, (L; /). La ruta de equilibrio pasa ahora por el 
conjunto de información de 32. Por tanto, la creencia de J2 está determinada 
por las propias estrategias de equilibrio. En concreto, cuando a J2 le toca ju¬ 
gar, sabe con seguridad que está en su nodo izquierdo, de forma que su creen¬ 
cia de equilibrio ha de ser a = 1. Si cree que está en su nodo izquierdo, es 
racional jugar Z. Cree que está en su nodo izquierdo porque sabe que J1 elige 
L en equilibrio, pues si J1 escoge L entonces a = 1. 

En un caso así de sencillo la aplicación de la regla de Bayes resulta tri¬ 
vial. Sea A el estado del mundo "estar en el nodo izquierdo” y ~A "estar en el 
nodo derecho”. Sea B el suceso de que a J2 le llega el momento de jugar. 
Dado que J2 observa que le toca jugar, actualiza su creencia inicial p(A): 

p(A)p(B\A) _ al ^ 

p(A)p(B\A) + p(~A)p(B\~A) arl + (1 — a) 0 

Las creencias iniciales p{A) y p(~A) son a y 1 - a respectivamente. En 
cuanto a p(B\A), la probabilidad de que a J2 le toque jugar si está en su nodo 
izquierdo, es evidente que dado que el nodo izquierdo está en la ruta de 
equilibrio (J1 elige L), dicha probabilidad ha de ser 1. Por la misma razón, 
p(B\~A) ha de ser 0, pues si a 32 le toca jugar, ha de ser porque J1 jugó an¬ 
tes L, luego la probabilidad de estar en el nodo derecho si le toca jugar es 0. 

La especificación completa del equilibrio bayesiano perfecto es: 



(L; /: a = 1) 


Según esta expresión, J1 juega L; J2 juega /; la creencia de equilibrio de 
J2 de estar en el nodo izquierdo cuando le toca jugar es 1. No hace falta indi¬ 
car las creencias de. J1 porque sus conjuntos de información son singletons. 

En lugar de exponer otros ejemplos similares, a continuación se aplica el 
equilibrio bayesiano perfecto al caso especial de los juegos de señal. Es con 
la discusión de esos juegos cuando puede entenderse cómo se realizan los 
cálculos para hallar este tipo de equilibrio. 


Caracterización de un juego de señal 

Los juegos de señal que se consideran aquí sólo suponen información in¬ 
completa por una de las partes. En concreto, se supondrá que J2 no está 
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seguro de los pagos de Jl, pero J1 conoce sus propios pagos y los de J2. Jl, 
por medio de su actuación, envía una señal a J2 acerca de su verdadera natu¬ 
raleza. La señal no siempre es informativa. J2, después de observar la acción 
de J1, puede seguir tan incierto acerca de los pagos de su rival como antes de 
que J1 actuara. Pero también puede suceder que las acciones de J1 revelen 
(parcial o completamente) a J2 información acerca de los auténticos pagos 
de Jl. J2 no conoce con certeza los pagos de Jl. La forma natural de modeli- 
zar esta situación consiste en suponer que cada perfil de pagos constituye un 
tipo posible de jugador. A fin de simplificar al máximo, vamos a considerar 
sólo casos en los que Jl puede ser uno de dos tipos diferentes. Cada uno de 
los dos tipos tiene pagos distintos. 

La estructura del juego es la siguiente. Comienza interviniendo Naturale¬ 
za. Naturaleza, como se señaló en el capítulo 3, es un actor ficticio que opera 
como una especie de mecanismo aleatorio. Realmente lo que hace Naturale¬ 
za es seleccionar un tipo de los dos tipos posibles de J1 de acuerdo con una 
distribución de probabilidad. Por ejemplo, Naturaleza selecciona un jugador 
Jl de tipo I con probabilidad 2/3 y un jugador Jl de tipo II con probabilidad 
1/3, Jl sabe qué tipo de jugador es él mismo. J2, en cambio, sólo conoce la 
distribución de probabilidad de los tipos. Tras Naturaleza, actúa Jl. La acción 
de Jl es lo que cuenta como señal. Luego J2, en función de la señal que Jl 
haya enviado, actúa a su vez. 

En el cuadro 5.3 se ofrece la representación arbórea de un juego de señal 
procedente de Gibbons (1992; 189) que servirá en la próxima sección como 


CUADRO 5.3 

JUEGO DE SEÑAL 
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introducción al análisis de estos juegos. El jugador Naturaleza aparece re¬ 
presentado en el centro del juego como N. En este caso, la distribución de 
probabilidad es [1/2, 1/2} para los dos tipos. Esto es, la probabilidad de que 
Naturaleza seleccione los tipos de J1 es igual en cada caso. Para distinguir 
en la representación del juego los dos tipos de Jl, escribimos respectivamen¬ 
te Jl n y Jl, 2 . Jl n aparece en la parte superior del juego y Jl, 2 en la parte infe¬ 
rior. Las acciones de cada tipo son las mismas, lo único que varía son los pa¬ 
gos. Las acciones de Jl son L o R. La acción elegida es la señal que Jl manda 
a J2. J2 observa L o R. Supongamos que observa L. El conjunto de informa¬ 
ción izquierdo de J2 está formado por dos nodos: esto quiere decir que al ob¬ 
servar la señal L, J2 puede estar en la parte superior o en la parte inferior del 
juego. Lo mismo sucede cuando observa R . En este ejemplo, J2 puede ha¬ 
cer u o d. Una vez que juega J2, se realizan los pagos. El primer número, 
como de costumbre, pertenece a Jl y el segundo a J2. Salta a la vista que los 
pagos de Jl fl y Jl í2 son distintos. 

En el juego del cuadro 5.3 se incluyen las creencias de J2 acerca de Jl. 
Así, a es la creencia de J2 de que cuando observa L, Jl sea del tipo Jl d . La 
creencia opuesta es 1 - a, la creencia de J2 de que cuando observa L, J1 sea 
del tipo Jl /2 . La creencia ¡3 es la creencia de J2 de que cuando observa R, Jl 
sea del tipo Jl fl y 1 - /3 es lo mismo pero con respecto a Jl f2 . 


Equilibrios agrupadores y separadores 

En un juego de señal las creencias son claves: todo gira en tomo a las creen¬ 
cias que J2 se forme a propósito de Jl tras observar la acción de Jl. Además, 
un juego de señal como el representado en el cuadro 5.3 no tiene otro subjue¬ 
go que no sea el propio juego. Necesitamos entonces el concepto de equilibrio 
bayesiano perfecto para analizar esta clase de juegos. Los equilibrios bayesia- 
nos perfectos en un juego de señal se pueden clasificar de la siguiente manera: 

— Equilibrio agrupador (pooling equilibrium): todos los tipos de Jl lanzan 
la misma señal. 

— Equilibrio separador (separating equilibrium): cada tipo de Jl elige una 
señal diferente. 

— Equilibrio semiseparador (semiseparating) o parcialmente agrupador 
(partially pooling): un tipo de Jl lanza una señal y el otro mezcla las 
señales posibles. 

En un equilibrio agrupador las señales enviadas por Jl no transmiten in¬ 
formación, pues si los dos tipos de Jl hacen lo mismo,.cuando le llega el tur¬ 
no a J2, J2 no sabe nada nuevo con respecto a lo que sabía antes de que Jl 
jugara. Una de las razones por las que puede darse un equilibrio agrupador 
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consiste en que a pesar de que los pagos que reciben los dos tipos de J1 sean 
distintos, a uno de los tipos le compense hacerse pasar por el otro tipo, con¬ 
fundiendo a J2. 

En un equilibrio separador las acciones de cada tipo de J1 son señales que 
transmiten información. Transmiten información porque los pagos son tales 
que cada tipo tiene incentivos para hacer algo distinto del otro. En este sen¬ 
tido, cada tipo se “separa” con respecto al otro al elegir estrategias distintas. 
J2, cuando le llega su tumo, sabe si se está enfrentando a J\ n o a Jl /2 . Toda 
la incertidumbre inicial se disipa. 

Finalmente, en un equilibrio semiseparador uno de los tipos juega una es¬ 
trategia pura y el otro una estrategia mixta. En cuanto que la estrategia mix¬ 
ta es una combinación probabilística de estrategias puras, habrá ocasiones 
en que las estrategias de ambos tipos coincidan y habrá ocasiones en que di¬ 
verjan. Cuando coincidan no se transmitirá información, cuando diverjan sí. 

Supóngase que J2 es una empresa y que J1 es el sindicato de la empresa. 
J1 tiene que decidir entre hacer una huelga y no hacerla. Vamos a considerar 
que se trata de un juego de información incompleta. El sindicato puede ser 
fuerte o débil. Si es fuerte, la huelga tiene éxito, pero si es débil fracasa. La 
empresa no está segura de si el sindicato es fuerte o débil. Si piensa que el 
sindicato es fuerte, acepta las demandas, pero si piensa que es débil, las re¬ 
chaza y fuerza la huelga. Podría pensarse que el sindicato débil siempre tiene 
incentivos para hacerse pasar por un sindicato fuerte, mandando la misma 
señal que éste, a fin de conseguir que la empresa conceda lo que piden los tra¬ 
bajadores. Pero esto no siempre es posible. Los equilibrios agrupadores mu¬ 
chas veces no se pueden dar porque las señales son costosas. Si fuera gratis 
mandar una señal u otra, las señales no transmitirían información. En gene¬ 
ral, cuanto más costosa sea la señal, mejor discrimina entre los tipos posibles. 

Veamos ahora cómo se calculan los equilibrios bayesianos perfectos en el 
juego del cuadro 5.3. Nos vamos a limitar en este primer ejemplo a examinar 
equilibrios basados en estrategias puras. El procedimiento es más bien me¬ 
cánico. Se trata de ir analizando los posibles equilibrios agrupadores y sepa¬ 
radores del juego. Hay que considerar dos posibles equilibrios agrupadores 
(en uno los dos tipos eligen L, en otro los dos tipos eligen R), y dos posibles 
equilibrios separadores (en uno Jl n elige L y Jl f2 elige R , y en el otro J\ n eli¬ 
ge R y Jl í2 elige L). 

1. Posible equilibrio agrupador en L. Los dos tipos de J1 eligen L. Como 
los dos hacen lo mismo, la señal no transmite información. Si no se transmi¬ 
te información, la creencia inicial de que J1 = Jl^ no se altera, sigue siendo 
0,5. Una aplicación de la regla de Bayes lo confirma: 


p(JlJD 


p(Jl„)p(L|Jl f1 ) 

p{n n )p{L\n n ) + p{n a )p{L\n a ) 


0,5*1 

0,5*1 +0,5*1 


0,5 
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Nótese que si L es la estrategia de equilibrio para ambos tipos de Jl, la 
probabilidad de que elijan L condicionada por el tipo será 1. 

La respuesta óptima de J2 a L es u, puesto que en el lado izquierdo del 
juego n domina a d. Para confirmar si jugar L por parte de los dos tipos pue¬ 
de ser un equilibrio, hay que comprobar si alguno de los dos tipos podría es¬ 
tar mejor jugando R. Eso depende de cómo J2 vaya a responder a R , pues ya 
sabemos que ante L responde siempre con u. Se puede advertir que si J2 res¬ 
pondiera a R con u , Jl n estaría mejor jugando R, pues en tal caso obtendría 
2, mientras que si jugara L obtendría 1. Por tanto, para que los dos tipos jue¬ 
guen L, es necesario que J2, si observara R, respondiera con d y no con u. 
Para asegurar que eso sea así, tenemos que tratar con /3, que ahora es una 
creencia fuera de la ruta de equilibrio. Puesto que no cabe aplicar la regla de 
Bayes a /3, podemos hacer lo siguiente, calcular el valor de /3 que satisface: 

UE J2 (d\R) > UE n {u\R) 

Las utilidades esperadas son las siguientes: 

UE n (d\R) = P0 + (1-¡3)2 = (l-p)2 
UE J2 (u\R) = 01 + (1 - 0)0 = ¡3 

La primera es mayor que la segunda cuando /3 < 2/3. Si esa es la creencia 
de J2, entonces Jl n está mejor jugando L que R. Igualmente, Jl f2 también 
está mejor jugando L que R } pues si Jl í2 hace L y J2 responde con u, Jl^ 2 ob¬ 
tiene 2, mientras que si Jl ?2 juega R y J2 responde con d, sólo obtiene 1. Aho¬ 
ra ya podemos especificar bajo qué circunstancias puede haber un equilibrio 
bayesiano perfecto agrupador en L\ 


^(L, L); ( u, d) : a = 0,5, /3 < 

Esto se interpreta del siguiente modo. En primer lugar, aparecen las es¬ 
trategias de Jl n y Jl í2 respectivamente: ambos eligen L. Luego vienen las dos 
estrategias de J2, la respuesta de J2 cuando observa L y la respuesta de J2 
cuando observa R. Por último, se indican las creencias racionales de equili¬ 
brio: la creencia a, que está en la ruta de equilibrio, es igual a la creencia ini¬ 
cial p - 0,5, pues los dos tipos de Jl actúan igual; y la creencia /3, que está 
fuera de la ruta de equilibrio, se determina al margen de la regla de Bayes. Al 
quedar indeterminada, no podemos hacer más que especificar qué valores 
de [3 serían compatibles con el equilibrio propuesto. 

2. Posible equilibrio agrupador en R. Los dos tipos de Jl eligen R. Pero 
entonces (3 = 0,5, pues en la creencia que forma parte de la ruta de equili- 
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brío no hay transmisión de información alguna. Como 0,5 es menor que 2/3, 
y acabamos de ver en el supuesto anterior que para J2 d es mejor que u 
en el lado derecho del juego cuando j3 < 2/3, podemos concluir que la 
respuesta óptima de J2 a R es d. Sin embargo, también hemos visto que si 
J2 responde con d en el lado derecho del juego, entonces Jl n está mejor ju¬ 
gando L, pues Jl ?1 sabe que si juega L J2 va a responder con u (ya que u 
domina a d en el lado izquierdo del juego), obteniendo 1, mientras que si 
juega R y J2 responde con d, sólo obtiene 0. Puesto que Jl í} tiene un incen¬ 
tivo para desviarse de R, no puede haber un equilibrio bayesiano perfecto 
agrupador en R. Esto ya es suficiente para descartar esta posibilidad de 
equilibrio. 


3. Posible equilibrio separador (Jl n juega L, Jl a juega R). Si cada tipo de 
J1 utiliza una estrategia distinta, necesariamente los dos conjuntos de infor¬ 
mación de J2 forman parte de la ruta de equilibrio y por lo tanto las creen¬ 
cias de J2 quedan determinadas por las estrategias de equilibrio y la regla 
de Bayes. En realidad, se puede concluir que en esta propuesta de equilibrio 
a - 1 y ¡3 = 0. Es decir, si J2 observa L, sabe que está en el nodo superior 
izquierdo, mientras que si observa R sabe que está en el nodo inferior de¬ 
recho, pues eso es lo que se establece en este equilibrio separador. La apli¬ 
cación de la regla de Bayes resulta de nuevo trivial. Veámoslo sólo para el 
caso de a: 


pOl ñ \L) 


gaugajjy 

p(n n )p(L\n n ) + p(jijp(L\n t2 ) 


0,5*1 

0,5*1 + 0,5*0 


La respuesta óptima de J2 a L es u y a R es d (teniendo en cuenta que a = 1 
y /3 = 0). ¿Podría esta combinación de estrategias formar parte de un equili¬ 
brio? La respuesta es negativa, ya que Jl, 2 sólo obtiene 1 jugando R , mien¬ 
tras que sabe que si jugara L podría obtener 2 (habida cuenta de que J2 
siempre responde con u a R). Por lo tanto, es imposible que los tipos de J1 se 
separen de la forma propuesta. Esto no es un equilibrio. 


4. Posible equilibrio separador (Jl n juega R, Jl t2 juega L). Si Jl n juega R y 
Jl /2 juega L, las creencias de equilibrio son a = 0 y /3 = 1. Dadas esas creen¬ 
cias, ¿cuál es la respuesta óptima de J2? Por lo visto anteriormente, sabemos 
que si J2 observa L, siempre responde con u. Y si /3 = 1, como ese valor es 
mayor que 2/3, y siempre que /3 > 2/3 J2 está mejor jugando u que d tras ob¬ 
servar R, J2 juega u. Luego en ambos casos la respuesta óptima es u . Para 
comprobar si esta combinación de estrategias es un equilibrio, hay que estar 
seguros de que ninguno de los dos tipos de J1 tiene incentivos para desviar¬ 
se. A Jl n no le interesa desviarse, pues si juega R obtiene 2, pero si elige L 
obtiene 1. Igualmente, a Jl í2 tampoco le interesa desviarse, pues eligiendo 
L obtiene 2, mientras que si jugara R obtendría 1. Puesto que nadie tiene 
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incentivos para desviarse de estas estrategias, nos encontramos en presencia 
de un equilibrio. La especificación completa del equilibrio es: 

(6R, L); (u,u) : a = 0, /3 = l) 

Se interpreta de la siguiente forma: Jl rl juega R, Jl t2 juega L; J2 juega u 
tanto cuando observa L como cuando observa R\ las creencias de equilibrio 
de J2 son que la probabilidad de estar en el nodo superior izquierdo si obser¬ 
va L es cero y la probabilidad de estar en el nodo superior derecho si observa 
R es uno. 

Por tanto, el juego del cuadro 5.3 tiene dos equilibrios bayesianos perfec¬ 
tos, uno agrupador en L y otro separador en el que Jl fl juega R y Jl í2 juega L . 
En el primer equilibrio no se transmite información, en el segundo sí. 


Aplicación: Democracia y redistribución 

A continuación se analiza otro juego de señal con varios equilibrios, inclu¬ 
yendo uno semiseparador. El modelo es más complejo que los analizados 
hasta el momento. Se trata de una ligera simplificación del modelo que pre¬ 
senta Caries Boix en su estudio sobre democracia y redistribución (2003: 
cap. 1), que a su vez puede entenderse como una simplificación de los mode¬ 
los sobre democratización desarrollados por Daron Acemoglu y James A. Ro- 
binson, reunidos en su celebrado libro Economic Origins of Dictatorship and 
Democracy (2006). El objetivo del modelo consiste en analizar las condi¬ 
ciones bajo las cuales la democracia puede implantarse. Dichas condicio¬ 
nes tienen que ver con las características de los dos grandes grupos socia¬ 
les, los ricos y los pobres. Los pobres quieren expropiar los activos de los 
ricos y repartirse las ganancias entre ellos. Como la distribución de ingre¬ 
sos suele ser asimétrica, habiendo más pobres que ricos, en un sistema 
democrático los pobres pueden votar a favor de expropiar a los ricos. Los 
ricos temen que esto suceda y por eso suelen resistirse a la llegada de la 
democracia. 

En realidad, los pobres no pueden expropiar todo cuanto desearían. De¬ 
pende en buena medida de la movilidad del capital de los ricos. Si el capital 
tiene baja movilidad (por ejemplo, si consiste fundamentalmente en tierras, 
que no se pueden transportar de un país a otro), los ricos temen mucho más 
la llegada de la democracia que si el capital es fácilmente trasladable, pues 
en este segundo caso la expropiación fiscal dictada por los pobres en una 
democracia es más baja dada la amenaza de fuga de capitales. Los ricos no 
pueden amenazar creíblemente con llevarse sus activos del país cuando éstos 
tienen muy alta movilidad. 
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Pues bien, la llegada de la democracia va a depender de la relación que 
haya entre los ingresos que podrían tener los ricos en democracia y los ingre¬ 
sos que podrían seguir teniendo bajo un régimen autoritario. Esa relación se 
complica por los costes de reprimir a los pobres si éstos demandan democracia 
y los ricos no aceptan esa demanda. Cuanto más alto sea para los ricos el coste 
de reprimir la demanda de los pobres, más probable que termine habiendo 
democracia. Se trata de un juego de información incompleta porque los po¬ 
bres desconocen si los costes de la represión son altos o bajos, es decir, si los 
ricos son débiles o fuertes. Hay, por tanto, dos tipos de ricos. Por su parte, 
los ricos saben todo lo necesario sobre los pobres. Comienza jugando Natura¬ 
leza, que selecciona con probabilidad q ricos con coste alto de represión (ricos 
débiles) y con probabilidad 1 - q ricos con coste bajo de represión (ricos fuer¬ 
tes). Las estrategias de los ricos son dos: o bien no reprimir a los pobres (lo que 
equivale a permitir la democracia) o reprimirlos con un coste r (que puede ser 
alto, r a , o bajo, r b ). Si llega la democracia, el juego se acaba. Pero si los ricos 
reprimen, entonces intervienen los pobres, que pueden hacer dos cosas, aceptar 
el régimen autoritario, u organizar una revolución que desencadene una gue¬ 
rra civil con un coste g para los ricos superior al coste de la represión, g > r. Si 
los costes de represión son bajos (los ricos son fuertes), los pobres siempre 
pierden en la revolución. Si son altos (los ricos son débiles), los pobres siem¬ 
pre ganan la revolución y expropian a los ricos. En concreto, expropian todos 
los activos que no son trasladables, el resto se lo llevan los ricos a otro lugar. 

La forma extensiva del juego, así como los pagos de los jugadores, apare¬ 
cen en el cuadro 5.4. Es preciso aclarar la notación empleada para represen¬ 
tar los pagos: 

R = ricos, P = pobres. 

y R p = ingresos de los ricos y los pobres después de impuestos en democracia. 

k R p = capital de los ricos y los pobres. 

r h a - coste de la represión, bajo y alto respectivamente. 

g = coste de la guerra civil. 

cr = movilidad de los activos de los ricos. 

Los pagos se explican a continuación. Si los ricos no reprimen, entonces 
hay democracia, se impone una fiscalidad y cada una de las partes recibe 
unos ingresos y después de impuestos. Si los ricos reprimen y los pobres no 
se sublevan, los ricos retienen todo su capital k R menos el coste de la repre¬ 
sión, r (r a o r b en función de si son altos o bajos), mientras que los pobres 
conservan su capital original k p . Si los pobres se sublevan, el resultado de¬ 
pende de cuál sea el tipo de ricos con los que se enfrentan: si los ricos son 
fuertes, éstos ganan la guerra civil (a un precio o coste g, g > r b ) y obtienen 
k R - g> quedándose los pobres sin nada, 0. Pero si los ricos son débiles, los 
pobres ganan la guerra civil. Ahora el pago de los ricos es (1 - o) k R - g, es 
decir, el capital original menos la parte expropiada, menos el coste de la 
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CUADRO 5.4 

LA ESTRUCTURA DEL JUEGO DE LA DEMOCRACIA 



(K-^k p ) 


(k r -9, 0) 


(k,-r 3 ,k) 


((1 - a)k r - g, k p + <rk) 


guerra civil. En cuanto a los pobres, ahora tienen k p + ak R , es decir, su capi¬ 
tal original más la parte que expropian a los ricos. 

Los equilibrios que puede tener este juego dependen de los valores que 
adopten las variables que figuran en los pagos. Hay que distinguir dos situa¬ 
ciones posibles: cuando los ingresos de los ricos en democracia son superio¬ 
res a los pagos que reciben en un régimen autoritario tras haber reprimido a 
los pobres, y cuando son inferiores. A la primera posibilidad la llamaremos 
Situación A y a la segunda Situación B. 
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Situación A: y R >k R -r 

Aquí el único equilibrio razonable es un equilibrio agrupador en el que los 
ricos no reprimen sea cual sea el coste de reprimir y hagan lo que hagan 
los pobres. Puesto que la democracia ofrece un mejor resultado posible que 
un régimen autoritario, los ricos no ponen inconveniente a la democracia. El 
nodo de los pobres está fuera de la ruta de equilibrio (no llegan a jugar) y 
por lo tanto sus creencias quedan indeterminadas. Consideremos por ejem¬ 
plo la creencia que hace que los pobres prefieran aceptar a sublevarse en 
caso de que observen represión: 

U p (aceptar) = (1 - q)k p + qk p = k p 

Up (revolución) = (1 -q) 0 + q{k p + ak R ) 


La primera cantidad es mayor que la segunda cuando la probabilidad de que 

k 

los ricos sean débiles es suficientemente baja, es decir, cuando q < - -—. 

k p+ ak R 


El equilibrio resultante sería: 


|(no reprimir, no reprimir); (aceptar, aceptar): q < 


K ) 

k p + ak R / 


Situación B: y R < k R - r b 

Ahora el pago bajo democracia es inferior para los ricos fuertes al pago en 
un sistema autoritario. Nótese que aquí no se especifica qué sucede con los 
ricos débiles, con costes altos de represión. Si los incorporamos, tenemos 
dos nuevas posibilidades, lo que se va a llamar Situación B1 y Situación B2: 

Situación B1 : K-h>yR> k R~r a 

Aquí los ricos débiles están mejor en democracia que en un régimen autori¬ 
tario, mientras que los ricos fuertes están mejor en un régimen autoritario 
que en democracia. En consecuencia, podemos contemplar la posibilidad de 
un equilibrio separador en el que los ricos con costes bajos reprimen y los ri¬ 
cos con costes altos aceptan la democracia. La estrategia de los pobres es la 
siguiente: si observan represión, aceptan el régimen porque su creencia de 
equilibrio es q - 0 y en la parte superior del juego, cuando se enfrentan a los 
ricos fuertes, están mejor aceptando que sublevándose. Si observan demo¬ 
cracia, entonces la respuesta dominante de los pobres (fuera de la ruta de 
equilibrio) es sublevarse, ya que en la parte inferior del juego (con una 
creencia q = 1 si llegan a jugar) siempre es mejor sublevarse que aceptar. 
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Ningún jugador tiene incentivos para cambiar. Los ricos débiles salen 
perdiendo si reprimen, pues la respuesta de los pobres es aceptar, que pro¬ 
porciona pagos peores a estos ricos que la democracia. El equilibrio separa¬ 
dor, por tanto, sería: 

[(reprimir, no reprimir); (aceptar, sublevarse): q' = 0] 

Situación B2: y R <k R -r a <k R - r b 

Aquí los dos tipos de ricos están mejor con un sistema autoritario que con 
uno democrático. En esta situación hay dos equilibrios, uno agrupador y 
otro semiseparador. Para caracterizar estos equilibrios, hay que determinar 
en primer lugar bajo qué condiciones los pobres optan por sublevarse frente 
a aceptar el régimen autoritario. Según se vio antes, los pobres aceptan el ré- 

k k 

gimen cuando q <-— y hacen la revolución cuando q ^. En 

k p + ak R k p + ok R 

función de cuál de las dos inecuaciones se satisfaga, tendremos un equilibrio 
u otro. 

k 

Supongamos primero que es el caso que q < -. Puesto que los po- 

K + 

bres siempre aceptan, los ricos, ya sean débiles o fuertes, siempre reprimen. 
Esto da lugar a un equilibrio agrupador, en el que nadie tiene incentivos 
para cambiar de estrategia. Por un lado, los ricos siempre están mejor en la 
situación B2 en un régimen autoritario que en uno democrático, ya sean dé¬ 
biles o fuertes, y saben que si reprimen los pobres van a aceptar el régimen 
autoritario; por otro lado, los pobres no pueden actualizar sus creencias si 
los dos tipos de ricos se comportan igual. Como hemos supuesto que dada su 
creencia inicial les compensa aceptar frente a sublevarse, aceptan el régimen 
autoritario. El equilibrio lo podemos caracterizar así: 


(reprimir, reprimir); (aceptar, aceptar): q <- - - 

L k p + ok R . 

Supongamos ahora que la creencia inicial de los pobres es la contraria, es 

k 

decir, prefieren sublevarse porque q > - £ —~. No puede haber un equili- 

k p + ak R 

brío agrupador, puesto que los ricos fuertes saben que ganarán la guerra ci¬ 
vil si hay sublevación, mientras que los ricos débiles saben que la perderán. 
Tampoco puede haber un equilibrio separador, pues si los ricos débiles nun¬ 
ca reprimen, los pobres nunca se sublevan cuando observan represión (de¬ 
duciendo de la represión que están en presencia de ricos fuertes) y en tal 
caso los ricos débiles tendrían incentivos para hacerse pasar por ricos fuer¬ 
tes reprimiendo. Sólo queda la posibilidad de un equilibrio semiseparador, 
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en el que los ricos fuertes siempre reprimen, y los ricos débiles mezclan sus 
estrategias entre reprimir y no reprimir. Para que los ricos débiles puedan 
utilizar una estrategia mixta, han de ser indiferentes entre reprimir y no re¬ 
primir, lo que sólo se puede lograr si los pobres, por su parte, juegan tam¬ 
bién una estrategia mixta. Para que los pobres puedan utilizar una estrategia 
mixta, han de ser indiferentes entre sublevarse y aceptar sabiendo que los ri¬ 
cos fuertes siempre reprimen y que los ricos débiles lo hacen sólo con cierta 
probabilidad. 

¿Bajo qué condiciones son los pobres indiferentes? Cuando su creencia 
de equilibrio, a la que llamaremos (3 , es tal que la utilidad esperada de acep¬ 
tar y sublevarse es la misma. Es decir, cuando: 


k p + ok R 

Por otra parte, la creencia ¡3, es decir, la creencia de que los ricos son 
débiles (los costes de represión son altos) dado que se observa represión, 
ha de poder determinarse por la regla de Bayes tal como se indica a conti¬ 
nuación: 


p(r = rjp (represión\r = r a ) 


fí = Pr(r = r a \represión) =- 

p(r = r a )p(represión\r = rj +p(r = r b )p(represión\r = r b ) 

Llamemos p a a la probabilidad de que los ricos débiles (r = a) repriman. 
En tal caso, la expresión anterior se puede reescribir así: 


0 = 


3Ea 


qp a + (1 -<?)1 

Juntando las dos ecuaciones que se derivan de /?, tenemos que: 


j¡Pa - 

qP a + (!-<?) k p + ak R 

Gracias a esta ecuación, podemos despejar ahora p a : 

_ k p (l -q) 
qcrk R 

Por tanto, siempre que los ricos débiles repriman con esa probabilidad, 
los pobres son indiferentes entre aceptar y sublevarse. Falta calcular la estra¬ 
tegia mixta de los pobres que hace indiferentes a los ricos débiles entre repri- 
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mir y no reprimir. Sea p r la probabilidad de que los pobres se subleven. Las 
utilidades esperadas de los ricos débiles son: 


UE R(r=r Jno reprimirj =y R 

UE R{r ^(reprimir) = p r (( 1 - <r)k R -g) + (1 -p){k R - rj 

Si igualamos ambas expresiones y despejamos p r , queda la siguiente ex¬ 
presión: 

„ _ (K-O-y* 

' ok R + g-r a 

Podemos poner todos los elementos juntos y definir así el equilibrio semi- 
separador: 


| reprimir , 


c p ( 1 -q) 


qok R 


reprimirj; 


^— íA — revolución] : /3 =-^- 

\ak R +g-r a ) k p + ok R _ 


En este equilibrio hay una cierta probabilidad de que se produzca una 
guerra civil, resultado que era imposible en los anteriores equilibrios separa¬ 
dores y agrupadores. 

Del análisis de estos equilibrios se derivan resultados de estática compara¬ 
tiva, es decir, enunciados contrastables empíricamente sobre cómo aumenta 
o disminuye la probabilidad de que los países tengan democracias cuando 
varían los parámetros del modelo como la especificidad del capital, el coste 
de la represión, el coste de la guerra civil, y las dotaciones iniciales de ca¬ 
pital. Para un análisis de la puesta a prueba del modelo, se puede consultar 
Boix (2003). 


Juegos repetidos de información incompleta: Reputación 

Uno de los desarrollos más interesantes de la teoría de juegos, con múltiples 
aplicaciones posibles en las ciencias sociales, consiste en el análisis de la re¬ 
putación. La necesidad de desarrollar algún tipo de reputación (reputación 
de ser una persona cooperadora, de llevar siempre a cabo las amenazas, de 
no ceder nunca, etc.) supone necesariamente información incompleta. Si en 
un juego J1 lo sabe todo acerca de J2, entonces J2 no tiene posibilidad de 
desarrollar ningún tipo de reputación. Es decir, si J1 conoce los pagos de J2, 
si hay información completa, J2 no puede desarrollar reputación de ser un 
tipo de jugador distinto del que en realidad es. La reputación tiene sentido 
cuando J1 no está seguro acerca de los pagos de J2 y J2 decide aprovechar 
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esa incertidumbre para crearse una cierta clase de reputación. Entiéndase 
bien lo que esto significa: J2 sabe qué tipo de jugador es, pero J2 comprende 
que puede recibir más utilidad si hace creer a J1 que en realidad es un tipo 
de jugador distinto del que verdaderamente es. 

Que haya información incompleta es una condición necesaria pero no su¬ 
ficiente para que un jugador pueda labrarse una cierta reputación. Es preci¬ 
so además que el juego se repita a lo largo del tiempo. Si la interacción entre 
J1 y J2 sólo se produce una vez, ninguno de los dos jugadores tiene incenti¬ 
vos para tratar de hacerse pasar por lo que no es, ya que no podrá aprove¬ 
char en el futuro la reputación creada. En cuanto que la inversión en reputa¬ 
ción es costosa en el corto plazo, hace falta que el juego se repita para que el 
jugador pueda hacer uso de su reputación y termine compensándole dicha 
inversión. 

La reputación se puede desarrollar en contextos muy variados. No hay 
por qué limitarse a la interacción repetida entre J1 y J2 (véase Kreps 1990b). 
Supongamos que J1 es un vendedor y que J2 es un conjunto (A, B, C...) de 
compradores. Aunque J1 interactúa con cada comprador sólo una vez, le 
trae a cuenta desarrollar reputación si los compradores observan las accio¬ 
nes de Jl. Es decir, si B, C, D... observan cómo J1 actúa con A, aunque J1 
sepa que con A no va a volver a encontrarse, J1 podrá usar dicha acción para 
construirse una reputación que luego haga valer cuando le toque jugar con 
B, C, D„. 

En el capítulo 4 ya se hizo alusión al papel que la reputación puede de¬ 
sempeñar en ciertos modelos si se quiere conseguir que los resultados de la 
teoría de juegos coincidan con la realidad. Así, cuando se explicó que en un 
juego repetido n veces (un Ciempiés, un Dilema del Prisionero) el único 
equilibrio de Nash es la no cooperación, se añadía que una posible salida 
consistía en suponer que el juego es de información incompleta. Si J2 piensa 
que hay una probabilidad pequeña de que Jl no sea un jugador estrictamen¬ 
te racional, Jl puede comenzar cooperando en un Dilema del Prisionero ju¬ 
gado n veces. Incluso si Jl es estrictamente racional, le interesa hacer creer a 
su rival que es irracional, de forma que J2 continúe cooperando. La razón 
por la cual observaríamos formas de cooperación en estos juegos es que hay 
un pequeño margen de incertidumbre acerca de la verdadera naturaleza de 
uno de los jugadores. 

A continuación se hace una presentación formal de esta idea. Siguiendo 
una versión simplificada de la exposición de Gibbons (1992: 224-232), cabe 
mostrar la importancia de la reputación en un Dilema del Prisionero (DP) ju¬ 
gado tan sólo tres veces. Para evitar entrar en detalles técnicos, Gibbons pro¬ 
pone el siguiente artificio: J2 es un jugador racional que no está seguro acer¬ 
ca de la racionalidad de Jl, pero Gibbons, en lugar de proponer varios pagos 
posibles de J1, considera que la irracionalidad se ejerce en la elección de es¬ 
trategias: con probabilidad p, Jl juega la estrategia toma-y-daca, mientras 
que con probabilidad 1 -p Jl es estrictamente racional. ¿Por qué es irracio- 
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nal jugar toma-y-daca desde la primera ronda si en el capítulo anterior se vio 
que el par de estrategias formado por toma-y-daca es un equilibrio de Nash? 
En realidad, ese par de estrategias sólo es un equilibrio si el DP se repite in¬ 
definidamente. Si el juego se juega un número finito de veces, toma-y-daca 
no puede ser un equilibrio: aplicando el razonamiento de la retroinducción 
es evidente que no puede ser racional comenzar cooperando, puesto que el 
agente sabe que en la última ronda el rival va a defraudar. Anticipando esto, 
la conclusión, como se explicó en el capítulo anterior, es que la única estra¬ 
tegia racional es defraudar siempre. Por tanto, si el juego se juega n veces, la 
estrategia toma-y-daca no puede ser un equilibrio. 


CUADRO 5.5 

EL DILEMA DEL PRISIONERO 


c 

D 


c D 


1,1 

-2, 2 

2,-2 

0 , 0 


Vamos a partir del DP que se especifica en el cuadro 5.5. Además, supon¬ 
dremos que no hay factor de descuento o, si se prefiere, que 8=1 para am¬ 
bos jugadores. Si hay información incompleta como la que se acaba de espe¬ 
cificar, es posible que haya un equilibrio en el que J1 (ya sea racional o 
irracional) y J2 comienzan cooperando, en oposición a lo que sucede si hay 
información completa. En concreto, se demuestra a continuación que las es¬ 
trategias que aparecen en el cuadro 5.6 son un equilibrio bayesiano perfecto. 

Cuando J1 es irracional, comienza cooperando, pues al fin y al cabo eso 
es lo que establece la estrategia toma-y-daca. A partir de ese momento, J1 
irracional imita la acción de J2 en la ronda anterior. Así, J1 irracional coope¬ 
ra en la última ronda porque J2 ha cooperado en la penúltima. Por su parte, 
J1 racional empieza cooperando para crearse reputación de cooperador, ex¬ 
plotando así la incertidumbre de J2 acerca de la verdadera naturaleza de Jl. 
Luego, en la segunda ronda, tras haber engañado a J2, revela su auténtica 
condición defraudando y, siendo racional, defrauda también en la última 
ronda. En cuanto a J2, éste comienza cooperando y tras observar que Jl 
coopera en la primera ronda, decide volver a cooperar en la segunda ronda, 
aunque en la tercera concluye defraudando. 

Para comprobar que esta combinación de movimientos es un equilibrio, 
podemos fijamos nada más en Jl racional y en J2: las acciones de Jl irracio¬ 
nal están dadas, en el sentido de que consideramos que Jl irracional aplica 
mecánicamente toma-y-daca. Hay que demostrar ahora que a Jl racional le 
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CUADRO 5.6 

TRES RONDAS DE UN DP CON INFORMACIÓN INCOMPLETA 



t= 1 

t = 2 

t = 3 

J1 (toma-y-daca) 

C 

c 

C 

J1 (racional) 

C 

D 

D 

J2 

c 

c 

D 


conviene comenzar cooperando. La utilidad esperada de comenzar coope¬ 
rando dadas las acciones del cuadro 5.6 para J1 racional es: 

MW/C,.1 ♦ 2 + 0.3 

La única desviación concebible para este jugador sería defraudar en to¬ 
dos los casos, olvidándose de imitar la estrategia de J1 irracional. Si defrau¬ 
da siempre la utilidad esperada sería: 

UE nmcional W^D^,D t J = 2 + 0 + 0 = 2 

Como esta utilidad esperada es menor que la anterior, se puede concluir 
que J1 racional está mejor desarrollando reputación de cooperador en la pri¬ 
mera ronda. Nótese por lo demás que la desviación consistente en jugar (C f=1 , 
C t=2 , D í=3 ) siempre da peor resultado que hacer (C í=1 , D {=r D f=3 ). Ahora pode¬ 
mos pasar a las acciones de J2. Hay que comprobar si J2 podría estar mejor 
que cuando coopera en las dos primeras rondas y defrauda en la tercera. 
Aquí caben dos tipos de desviaciones. La primera desviación es defraudar en 
todas las rondas. El juego, por tanto, se jugaría como se indica en el cua¬ 
dro 5.7. Ahora de lo que se trata es de determinar con cuál de las dos estrate¬ 
gias J2 está mejor. 


CUADRO 5.7 

PRIMERA DESVIACIÓN DEL EQUILIBRIO 



t= 1 

t = 2 

t = 3 

J1 (toma-y-daca) 

c 

D 

D 

J1 (racional) 

c 

D 

D 

J2 

D 

D 

D 
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La utilidad esperada para J2 si coopera en las dos primeras rondas y de¬ 
frauda en la tercera (cuadro 5.6) es: 

UE J2 (C í=l> C ts2 , D t J = 1 + [pl + (1 -p)(-2)] + [p2 + (1 -p)0] - 5p -1 

Mientras que en la ronda 1 es seguro que J1 coopera, sea cual sea su na¬ 
turaleza, en las rondas 2 y 3 el comportamiento de cada tipo de J1 es distinto 
y por eso hay que introducir la probabilidad de cada tipo de J1 en los cálcu¬ 
los de utilidad de J2. Por otro lado, la utilidad esperada de desviarse defrau¬ 
dando siempre (cuadro 5.7) es: 

UE J2 (D t=i , D t=r D t=3 ) = 2 + 0 + 0 = 2 

Como en el cuadro 5.7 los dos tipos de J1 actúan igual, ahora no inter¬ 
viene la creencia de J2 acerca de la irracionalidad de Jl; Pues bien, a J2 no 
le compensa esta desviación cuando 5p - 1 > 2, o lo que es igual, cuando 
p > 3/5. Si la probabilidad de que Jl sea irracional es alta, por encima de 
3/5, entonces a J2 no le convendría desviarse, pues si no se desvía (cua¬ 
dro 5.6) sabe que es bastante probable que durante las dos primeras rondas 
los dos jugadores cooperen y que en la última J2 pueda engañar a Jl irra¬ 
cional, mientras que si J2 se desvía (cuadro 5.7) habiendo una probabilidad 
mayor de 3/5 de que Jl sea irracional, engaña a Jl en la primera ronda, 
pero a partir de ahí está garantizado que ambos jugadores defraudan hasta 
el final. 

La segunda desviación posible de J2 que rompería el equilibrio represen¬ 
tado en el cuadro 5.6 consistiría en que J2 defraudara en la primera ronda, 
cooperando en la segunda y defraudando en la tercera. La secuencia del jue¬ 
go ahora correspondería a lo que se presenta en el cuadro 5.8. J2 siempre en¬ 
gañaría a Jl en la primera ronda, J2 se dejaría engañar en la segunda ronda, 
y en la tercera engañaría a Jl si éste es irracional. 


CUADRO 5.8 

SEGUNDA DESVIACIÓN DEL EQUILIBRIO 



t= i 

t = 2 

t = 3 

Jl (toma-y-daca) 

c 

D 

c 

Jl (racional) 

c 

D 

D 

J2 

D 

c 

D 
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La utilidad esperada de J2 es: 


UE n {D tmV C t _ r D t J = 2 +(-2) + [p2 + (1 -p) 0] = 2p 


Para que esa desviación no compense, tiene que suceder que 5p - 1 > 2p. 
es decir, que p > 1/3. Por lo visto hasta aquí, se sigue que si la probabili¬ 
dad de que J1 sea irracional es mayor que 3/5, la combinación de estrate¬ 
gias del cuadro 5.6 es un equilibrio. Ese equilibrio, recuérdese, consiste en 
que J2 coopera en las dos primeras rondas y defrauda en la tercera, J1 
irracional coopera en las tres rondas, y J1 racional coopera en la primera 
creándose reputación de irracional para pasar a defraudar en las dos si¬ 
guientes. 

Cuantas más veces se repita el DP, menor es la probabilidad p necesaria 
para que a J1 racional le compense invertir en reputación de cooperador 
irracional. Nótese que la reputación es un activo frágil: en cuanto un agen¬ 
te se desvía en una ocasión con sus acciones de su reputación, ésta se vola¬ 
tiliza. En el equilibrio del cuadro 5.6 que se está considerando, es evidente 
que una vez que en la segunda ronda J2 observa que J1 defrauda, J2 está 
seguro de que J1 es racional. Aplicando la regla de Bayes, el cálculo sería 
éste: 


p{ J1 racional\D t ^ 2 ) = 


p(Jl racional)p(D t=2 |J1 racional) 
p(Jl racional)p(D t=2 \31 racional) + 

+ p( J1 irracional) p(D t=2 |J1 irracional) 


(l-p)l 
(l-p)l +P0 


Si J1 defrauda en la segunda ronda, J2 inmediatamente concluye que J1 
es racional. La reputación creada en la primera ronda desaparece en la se¬ 
gunda en cuanto J1 defrauda. 

Este breve análisis de la idea de reputación permite integrar casi todos 
los elementos que han ido apareciendo en los capítulos anteriores, puesto 
que estamos realizando cálculos de utilidad (capítulo 1) sobre un juego en 
forma normal (capítulo 2) que se repite a lo largo del tiempo (capítulo 4) 
bajo condiciones de información incompleta (capítulo 5). La teoría de juegos 
puede llegar a dar cuenta de interacciones sociales con un alto nivel de com¬ 
plejidad según se ha visto a propósito de la reputación. Ahora bien, confor¬ 
me aumenta la complejidad del contexto estratégico, aumenta también la di¬ 
ficultad analítica de la teoría de juegos. Mientras que la primera noción de 
equilibrio expuesta, la del equilibrio de Nash, depende de pocos supuestos y 
resulta transparente y fácil de entender, las sucesivas nociones de equilibrio 
que ha sido preciso especificar para abordar juegos más ricos que los juegos 
en forma normal son más discutibles y se basan en una racionalidad muy 
exigente: basta recordar las condiciones sobre racionalidad de las creencias 
que impone el equilibrio perfecto bayesiano. En este sentido, hay claramente 
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una relación inversa entre la riqueza y el detalle de Ios-contextos estratégicos 
que se quieren estudiar por un lado, y la simplicidad y elegancia de los mo¬ 
delos formales de teoría de juegos por otro. El presente libro, debido a su na¬ 
turaleza introductoria, se ha centrado sobre todo en situaciones estratégicas 
que pudieran ser abordadas mediante modelos simples. A partir de este pun¬ 
to, el lector puede comenzar un estudio más pormenorizado y más técnico 
de la teoría de juegos que le abra el camino para el análisis de contextos de 
interacción estratégica más complejos. 


Glosario 


árbol de decisión: gráfico arbóreo compuesto de nodos y ramas que repre¬ 
senta la secuencia de jugadas, los pagos de los jugadores y la información 
que éstos tienen. La regla fundamental de construcción del árbol es que 
cada nodo sólo puede tener un predecesor. 

aversión al riesgo: el agente prefiere el valor esperado de una lotería a jugar 
la lotería. 

compromiso (commitment): una manipulación del conjunto de alternativas 
que permite al agente conseguir un resultado que en ausencia del com¬ 
promiso no sería posible. Manipulación significa que o bien el agente eli¬ 
mina alguna de sus alternativas disponibles o bien se impone a sí mismo 
costes sobre algunas de las alternativas. 

conjunto de información: partición de los nodos no terminales. Indica el 
grado de información que tiene el jugador sobre las elecciones previas de 
los otros jugadores. 

dominación: una estrategia S r domina fuertemente a otra estrategia S 2 si S } 
siempre produce mejores pagos que S 2 haga lo que haga el rival. Una es¬ 
trategia S I domina débilmente a otra estrategia S 2 si S } nunca produce peo¬ 
res resultados que S 2 y al menos en un caso produce mejores resultados. 

dominación repetida: procedimiento por el cual se van eliminando del jue¬ 
go todas las estrategias fuerte o débilmente dominadas. 

equilibrio agrupador (pooling equilibrium): en un juego de señal se pro¬ 
duce un equilibrio agrupador cuando todos los tipos posibles de un juga¬ 
dor eligen la misma estrategia. 

equilibrio bayesiano perfecto: un conjunto de estrategias y creencias tales 
que las estrategias son secuencialmente racionales y las creencias son ra¬ 
cionales. Las creencias se determinan según las estrategias de equilibrio y 
según la regla de Bayes (cuando es posible). 

equilibrio semiseparador (semiseparating equilibrium): en un juego de 
señal se produce un equilibrio semiseparador cuando un tipo posible 
de un jugador elige una estrategia y el otro tipo mezcla las estrategias 
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posibles, coincidiendo a veces con el primer tipo y distinguiéndose de él 
en otras. 

equilibrio separador (separating equilibrium): en un juego de señal se 
produce un equilibrio separador cuando cada tipo posible de un mismo 
jugador elige una estrategia distinta. 

equilibrio de Nash: combinación de estrategias que son respuestas óptimas 
las unas con respecto a las otras. 

equilibrio de perfección en el subjuego: combinación de estrategias que es 
un equilibrio de Nash en cada uno de los subjuegos que componen el juego. 

estrategia: un plan completo de acción. 

estrategia condicional: estrategia en la que el jugador elige una acción u 
otra en función del comportamiento del rival observado hasta ese mo¬ 
mento. 

estrategia mixta: una distribución de probabilidad sobre estrategias puras. 

estrategia pura: una estrategia en la que no intervienen elecciones probabi- 
lísticas. 

factor de descuento: es un coeficiente entre 0 y 1 que refleja cuánto valora¬ 
mos ahora un pago que vamos a recibir en el periodo siguiente. 

función de utilidad: regla que asigna números (ordinales o cardinales) a un 
orden de preferencias. 

función de utilidad Von Neumann-Morgenstem: función de utilidad car¬ 
dinal én la que la intensidad de las preferencias se mide a través del ries¬ 
go que está dispuesto a asumir el agente por conseguir la mejor opción 
posible frente a obtener una opción intermedia con seguridad. 

incertidumbre: una decisión se toma bajo incertidumbre cuando no se sabe 
a ciencia cierta las consecuencias de la decisión y no hay probabilidades 
objetivas de la ocurrencia de cada consecuencia. 

juego de información imperfecta: juego en el que al menos un conjunto de 
información cubre más de un nodo. 

juego de información perfecta: juego en el que todos los conjuntos de in¬ 
formación son singletons . 

juego de referencia (stage gante): estructura del juego que se repite a lo 
largo del tiempo. 

juego de señal: juego en el que al menos uno de los jugadores desconoce los 
pagos verdaderos de su rival y las acciones del rival pueden transmitir in¬ 
formación sobre dichos pagos. 
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juego en forma extensiva: juego en el que se representa la secuencia de 
elecciones de los jugadores y la información que éstos tienen en las dis¬ 
tintas fases del juego. 

juego en forma normal: juego en el que los jugadores eligen simultánea¬ 
mente o cada uno elige sin saber qué han elegido los demás. 

lotería: emparejamiento de probabilidades y consecuencias. Se asigna una 
probabilidad a cada consecuencia. 

neutralidad al riesgo: el agente es indiferente entre jugar una lotería y reci¬ 
bir el pago esperado de una lotería. 

nodo: punto del juego en el que un jugador tiene que tomar una decisión. 

nodo terminal: un punto del juego del que no sale ninguna rama. Indica el 
final del juego. Los pagos de los jugadores se representan en los nodos 
terminales. 

propensión al riesgo: el agente prefiere jugar una lotería a obtener el valor 
esperado de esa lotería. 

racionalidad secuencial: las estrategias son secuencialmente racionales si 
cada acción del jugador es óptima dadas la creencia del jugador y las es¬ 
trategias de los otros jugadores. 

regla de Bayes: actualiza racionalmente el contenido de una creencia inicial 
a la luz de nueva información relevante. 

reputación: creencia de los demás jugadores acerca del tipo de un jugador 
como consecuencia de las acciones que ha llevado a cabo hasta el mo¬ 
mento ese jugador. Sólo tiene sentido en contextos de información in¬ 
completa en los que el juego se repite. 

respuesta óptima: una estrategia es una respuesta óptima a una estrategia 
dada del rival si proporciona mejores resultados que cualquier otra posi¬ 
ble estrategia. 

retroinducción: procedimiento que se puede aplicar en los juegos de infor¬ 
mación perfecta en virtud del cual se van eliminando sucesivamente es¬ 
trategias dominadas. Se comienza por los nodos previos a los nodos ter¬ 
minales y se va avanzando hacia atrás: el proceso concluye cuando se 
alcanza el nodo inicial del juego. 

riesgo: una decisión se toma bajo riesgo cuando no hay certidumbre pero se 
pueden estimar probabilidades objetivas sobre la ocurrencia de las diver¬ 
sas consecuencias posibles de la decisión. 

ruta de equilibrio: desarrollo del juego según resulta de llevar a cabo las es¬ 
trategias que constituyen el equilibrio. La ruta de equilibrio está formada 
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por todos aquellos nodos que tienen una probabilidad superior a 0 de ser 
alcanzados. 

singleton : conjunto de información formado por un único nodo. 

situación estratégica: cuando las consecuencias de las acciones de cada 
uno de los jugadores dependen, aparte de parámetros, de las acciones de 
los otros jugadores. 

situación paramétrica: cuando las consecuencias de la acción del agente 
sólo dependen de parámetros y los valores de estos parámetros son inde¬ 
pendientes de su elección. Las situaciones paramétricas pueden ser de 
certidumbre, riesgo o incertidumbre. 

subjuego: una parte del juego que comienza con un nodo inicial e incluye 
todos los nodos sucesores de ese nodo inicial. El subjuego se puede consi¬ 
derar como un juego en sí mismo. El subjuego más amplio posible coin¬ 
cide, en el límite, con el propio juego. 

supuesto de racionalidad: un agente es racional cuando, al elegir entre las 
alternativas disponibles, elige en función de sus preferencias y éstas cons¬ 
tituyen un orden débil (son completas, reflexivas y transitivas). 

utilidad: medida numérica que se asigna a las preferencias. 

utilidad esperada; suma ponderada de la utilidad que tienen los distintos 
resultados que pueden darse con cada estado del mundo. La ponderación 
se realiza con la probabilidad de ocurrencia de cada estado del mundo. 
Se multiplica dicha probabilidad por la utilidad del resultado correspon¬ 
diente y todos esos productos se suman, dando como resultado la utilidad 
esperada de una acción. 
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